Wednesday, December 16, 2015

Forensik Suara di Indonesia: Past, Present and Future

Berikut adalah resume singkat saya saat mengikuti "Workshop Forensik Suara Ucap di Indonesia: Pas, Present and Future" yang diorganisir oleh Kelompok Keahlian Instrumentasi dan Kontrol, Teknik Fisika ITB. Workshop ini dibagi menjadi tiga sesi, sesi dari Komisi Pemberantasan Korupsi, sesi dari Puslabfor POLRI, dan sesi dari akademisi ITB.

Kebutuhan Penyidik akan Forensik Suara Ucap

Forensik suara ucap → Proses untuk menentukan apakah contoh dari suara seseorang (known sample) merupakan sumber dari suara yang diselidiki (unknown sample). Jenis alat bukti forensik suara ucap adalah sbb:
  • Rekaman suara 
  • Laporan forensik suara 
  • Pendapat ahli
Dari ketiga jenis alat bukti forensik suara diatas, jelas peran forensik sangat vital untuk bisa dijadikan referensi dalam menuntut tersangka/terdakwa dengan hukuman semaksimal mungkin. Didukung dengan barang bukti yang sah (real evidence), maka tugas KPK untuk menjerat koruptor akan semakin realistis. Dalam KUHAP Pasal 184 alat bukti yang sah adalah: keterangan saksi, keterangan ahli, surat, petunjuk dan keterangan terdakwa. Perluasan alat bukti (forms of evidence) ini mencakup alat bukti elektronik yang mencangkup rekaman suara maupun data pendukungnya. Trend penggunaan forensik suara dalam hukum semakin meningkat seiring berkembangnya teknologi. Dalam film-film spy Hollywood, penggunaan teknologi suara sudah di-imajinasikan sangat canggih sehingga kita bisa mengetahui posisi seseorang hanya dari suaranya saja, misal dalam film Bourne, Mission Impossible atau 007.

Audio Forensic Analysis 

Audio forensik adalah cabang dari digital forensik, cabang lainnya adalah computer forensic, mobile forensic, video forensic, image forensic, dan network forensic. Fungsi dari digital forensik adalah: electronic evidence, scientific crime investigation, forensic analysis, digital evidence, legitimate. Audio forensic meliputi integrity of recording, enhancement of recording, decoding of recording (transcribing) dan Voice recognition.

Integrity of recording diperlukan untuk mengecek asli tidaknya suatu file audio. Gambar dibawah menjelaskan perbedaan create date dan modified date untuk menentukan apakah file audio tersebut asli, hasil copy-paste atau hasil modifikasi. Integrity of recording meliputi acquisition, metadata check, time stamps check dan spectrum check. Suara yang telah di-edit akan mengalami pergeseran frekuensi jika dilihat dari spektrumnya.

Ilustrasi perubahan mode waktu pada perpindahan file suara (dok. pribadi, C@btatmaja)

Enhancement of recording diperlukan bila kualitas suara rekaman jelek atau sangat jelek. Biasanya kualitas sinyal suara tersebut bercampur dengan noise latar, noise dari alat (hasil penyadapan), karena emosi, lingkungan yang ramai atau berbaur dengan suara lawan bicara.Enhancement of recording ini biasanya dilakukan dengan teknik adaptive filter, noise suppression, noise reduction.

Decoding of recording dilakukan untuk men-transrip isi rekaman. Hal ini bisa dilakukan secara manual ataupun otomatis dengan bantuan software. Terkadang untuk pembicaraan yang di-enkripsi atau di-kodekan, dibutuhkan langkah tambahan untuk mengartikan pembicaraan dalam rekaman tersebut.

Step terakhir dalam forensik suara adalah voice recognition atau speaker recognition, yakni untuk menentukan suara tersebut milik siapa, atau apakah known sample identik dengan unknown sample. Step terakhir ini merupakan inti dari forensik suara. Untuk menentukan identik tidaknya ada dua cara yang bisa ditempuh, yakni secara manual dengan metode statistik dan dengan pendekata otomatis malalui pemodelan Gaussian Mixture Model (GMM) untuk memodelkan voice-print suara rekaman. Berikut adalah tujuan, persyaratan dan langkah-langkah voice recogntion secara otomatis:
  1. To create voice-print model of speakers's voice
  2. Minimum speech lengths: 10 seconds
  3. Use Gaussian Mixture Model (GMM) to generate voice-print model
  4. Use Likelihood ratio (LR) algorithm to calculate score

Jadi, ada dua metrik dasar yang dijadikan (setidaknya oleh kepolisian) untuk menilai identik tidaknya suara known dan unknows, pertama speaker score (range 0-10/0-100%) diatas 98% dan Likelihood Ratio (LR) dimana jika lebih dari 2 bisa dikatakan identik, jika kurang dari -2 maka tidak identik. Jika -2 < LR < 2, maka tidak bisa diputuskan (inconclusive).

Untuk metode manual voice recognition, langkah-langkahnya adalah sebagai berikut:
  • Forensic comparison based on the same words
  • Analysis of pitch, formant bandwidth and spectrogram
  • Minimum 20 words for identical conclusion
Sedangkan secara statistik, variabel yang dianalisis pada voice recognition manual adalah sbb:
  • Pitch: Maximum, Minimum, Mean
  • Formant and bandwidth: Analysis of variance (ANOVA):
    • Comparison between F-value and F-critical and probability P-value
    • Critical F: The largest F-value statistically significant by using Alpha
    • The factor of significant: 0.05, the level of confidence: 99.95 %.
    • If F-value less than critical, and P-value is higher than 0.05(> significance level) --> No significant difference between a known and unknown sample
  • Formant: Graphical distribution
    • To draw the level of distribution on each formant (F) in graphical format
    • F1 Vs F2, F3 Vs F4
    • To filter the deviated value of formant
    • To get the pattern of graphical distribution between known and unknown samples.
  • Spectrogram: Special spectral pattern
    • Spectrogram: to visualize formant and bandwidth on each pronounced words
    • To draw the pattern of general characteristics and class characteristics
    • The patterns are compared between know and unknown samples
    • If it shows moderately significant similarity: Accepted; if it shows moderately significant difference: Rejected.
Dengan menggabungkan analisis ototmatis dan manual untuk voice recognition maka dapat diambil kesimpulan apakah suara dari known dan uknown tersebut identik, non identik atau tidak bisa disimpulkan (inconclusive).

Menuju Rekognisi Suara Otomatis

Meskipun puslabfor POLRI pada sub-departemen digital forensik-nya telah memakai speaker recoginition (rekognisi suara) otomatis, namun pemakain tersebut hanya sebatas sebagai user saja yang menggunakan hardware dan software dari US (FBI). Rancang-bangun sistem rekognisi suara otomatis diperlukan untuk mengembangkan kemandirian bangsa dalam teknologi rekognisi suara ini.

Dari berbagai informasi yang bisa diekstrak pada suara ucap (aksen, bahasa, emosi, jenis kelamin, kata dan identitas) rekognisi suara hanya memproses pengenalan atau rekognisi identitas seorang pengucap dalam dari suatu segmen suara ucap. Ada tiga tahapan dalam rekognisi suara ucap: verifikasi, identifikasi dan klasifikasi atau diarisasi pengucap. Verifikasi untuk menentukan sama/tidaknya suara known dan unknown, identifikasi untuk menentukan siapa yang berbicara dan klasifikasi untuk mencari siapa yang berbicara pada tiap segmen suara (campuran).

Berdasarkan fonetik-akustik, fitur akustik yang digunakan adalah pitch (F0), formant dan bandwidth formant (f1, f2, f3, dst), intensitas energi sinyal dan durasi suara. Sedangkan secara statistik manual dibutuhkan kalimat, kata, suku kata maupun fonem yang text-dependent (sama antara known dan unknown).

Secara otomatis, ekstraksi fitur dari pengucap adalah dengan menggunakan MFCC (Mell Frek.), LPC, LPCC, CFCC serta menggunakan pemodelan seperti GMM-UBM, i-vector, JFA, HMM, ANN, SVM, PLDA dll. Untuk membuat keputusan pada sistem pengenalan suara otomatis tersebut, digunakan sistem binary dengan threshold berdasarkan target dan non-target scores. Parameter lainnya yang juga digunakan untuk mengambil keputusan adalah likelihood ratio, probabilitas relatif dari suatu bukti/skor $E$ terhadap kedua hipotesis,

$H_0$: Suara unknown dan known berasal dari pengucap yang sama
$H_1$: Suara unknown dan known berasal dari sumber yang berbeda,

$$LR=\frac{P(E|H_0)}{P(E|H_1)}$$

Analisa Statistik untuk mencari nilai LR (plot source: http://forensic-evaluation.net)

Kondisi saat ini, kebanyakan sistem rekognisi suara sudah mampu mengenali dengan text-dan channel-independent, beberapa diantaranya bahkan sudah mampu pada kondisi gender dan language independent. Error yang diperoleh pun juga sudah cukup kecil, yakni dengan performa equal error rate (err) yang kurang dari 1%. Peningkatan performa tersebut bisa ditingkatkan dengan fusion pada saat ekstraksi fitur, pemodelan maupun pada level score. Untuk aplikasi forensik, kalibrasi nilai likelihood ratio (LR) diperlukan untuk meningkatkan performa.

Sistem yang ada dan digunakan saat ini masih kompleks (syarat jumlah (ujaran) minimum, durasi minimum, dll) dan menggunakan teknik konvensional (GMM, statistik, dll). Tantangan terbesar dalam bidang forensik suara ini adalah untuk mendapat hasil seakurat mungkin berbasis data yang ada, tanpa batasan-batasan di atas. Data-driven model adalah salah satu kuncinya (dibanding pemodelan, menurut saya). Kunci keberhasilan yang lain, yang menurut saya akan menghasilkan hasil yang signifikan, adalah mencari fitur akustik (voice fingerprint) yang membedakan antara suara orang satu dengan suara orang lainnya dengan sigfinikan ("pembeda").
Related Posts Plugin for WordPress, Blogger...