Tuesday, December 25, 2018

Representasi suara dan pemrosesannya [3]

Tulisan ini adalah kelanjutan tulisan sebelumnya, catatan kuliah "Human perceptual system and its model", pertemuan ketiga.

Motivasi:
Apa perbedaan pemrosesan linear dan pemrosesan non-linear?
Pemrosesan linear:Transformasi Fourier, Laplace, Z, Wavelet
Pemrosesan non-linear: Sistem auditori, sistem produksi suara, sistem audio
Lebih jauh tentang perbedaan sistem linear dan non-linear bisa dilihat disini: https://youtu.be/nxGmkAgJaA8

Bagaimana mempelajari pendengaran?
- Fisiologi auditori
- Psikofisika auditori (psikoakustik)


Fisiologi auditori: Tentang bagaimana sistem pendengaran bekerja, bagaimana suara diproses oleh sel dan struktur dalam telinga dan otak.

Teknik-teknik yang digunakan dalam fisiologi auditori:
- Operasi (membuka dan melihat organ telinga sampai ke otak)
- Neurofisiologi (aktivias elektrik)
- Gambar/Citra otak (misalnya fMRI)

Psikoakustik

Adalah studi perilaku pendengaran dimana partisipan diminta memberikan respon atas suara yang diperdengarkan (stimuli). 

Pentingnya psikoakustik: Untuk mengkombinasikan eksperimen fisiologis dengan eksperimen 
yang melibatkan perilaku terhadap respon

Karakteristik suara
$$ x(t) = A \sin (2 \pi f t + \phi ) $$
Tiga parameter utama untuk mengkarakterisasi suatu sinyal (suara) adalah sbb
- Frekuensi ($f$)
- Amplitudo ($A$)
- Fase ($\phi$)
Penjelasan dan hubungan antar ketiganya bisa dibaca di sini
Frekuensi biasa dituliskan dalam $f$ dengan satuan Hz atau dalam frekuensi sudut $\omega$ ($\omega = 2 \pi f$, rad/s).

Speech vs Voice

Speech (suara ucap/sinyal wicara), suara ucap yang memiliki arti.
Voice (suara), suara yang diproduksi oleh laring.

Persepsi pitch absolute
Musisi bisa mengenali ketidak-adaan satu frekuensi yang hilang dari suatu susunan nada.
Pada telefon, meski terfilter, penerima bisa merasakan sensasi pitch penelfon.

Besaran karakteristik suara
Daya : energi yang ditransmisikan per detik, yang dapat kita rasakan adalah daya, bukan energi.
Intensitas suara: daya suara yang ditransmisikan per unit area tiap detik
unit = watt per square meter ($w/m^2$)
$10^{-12} = 2 \times 10^{-5} N/m^2 = 20 \mu Pa$

Hubungan antara intensitas $I$ dan tekanan rms ($P$) adalah sebagai berikut:

$$I = k P^2$$

dengan k adalah konstanta. Terlihat bahwa intensitas suara berabanding lurus dengan kuadrat tekanan suara yang diemisikan.

Sound level dalam dB
60 dB SPL --> 60 dB lebih tinggi daripada referensi (0dB, intensity of $10^{-6} W/m^2$)
sebagai fungsi intensitas, dB SPL dapat dirumuskan:

$$ dB~SPL = 10 \log \dfrac{I_0}{I_i}~~~dB$$

Karena intensitas berbading lurus dengan kuadrat tekanan suara maka, 

$$ dB~SPL = 10 \log \left( \dfrac{P_0}{P_i} \right) ^2 = 20 \log \dfrac{P_0}{P_i} ~~~ dB$$

ISO menyatakan notasi untuk tekanan suara adalah dB, bukan dB SPL.

Fourrier Transform
Transformasi Fourier digunakan untuk mengkonversi sinyal dalam domain waktu ke dalam domain frekuensi. Kenapa dilakukan transformasi Fourier? Karena analisa sinyal lebih mudah dilakukan disana. Contoh kita ingin mereduksi bising (noise), namun kita tidak tahu frekuensi bising tersebut. Jika kita mengetahuinya, maka akan mudah dilakukan (misal dengan lowpass atau bandpass filter).
Transformasi Fourrier dirumuskan sebagai berikut,

$$ X(j\omega) = \int_{-\infty}^{\infty} x(t) e^{-j \omega t} dt $$

Untuk fungsi periodik, bisa mengaplikasikan deret Fourrier daripada transformasi Fourier. STFT (short term Fourier transfrom) mengaplikasikan FT  pada rentang integral tertentu (frame). Kenapa dipecah-pecah? Karena sinyal suara itu non-stasioner sehingga frekuensinya pun banyak, tidak tunggal. Contoh transformasi Fourrier adalah dari sinyal Sinc (x(t)) menjadi sinyal rektangular ($X(j \omega)$). Video lebih jelas tentang tranformasi Fourier bisa dilihat disini: https://www.youtube.com/watch?v=ckOmEjR_aZI

Filter

Filter merupakan tapis, untuk menyaring suatu sinyal ke dalam batasan (frekuensi) yang kita inginkan, Ada tiga filter yang umum digunakan:
- Low-pass filter: meloloskan sinyal frekuensi rendah (rangkaian RC)
- Band-pass filter: meloloskan sinyal rentang frekuensi tertentu
- High-pass filter: meloloskan sinyal frekuensi tinggi
Sedangkan dua parameter utama pada filter yakni: bandwidth dan tuning-Q. Bandwidth biasanya dihitung per 3 dB atau 10 dB, berapa rentang frekuensinya. Pada psikokakustik, filter pendengaran manusia bisa didekati dengan filter ERB (equivalent rectangular bandwidth).

Selain jenis diatas ada juga pembagian filter yang lain yakni: IIR (infinite impulse response) dan FIR (finite impulse response). Penjelasan keduanya bisa disimak disini; https://youtu.be/vAwzDv0Ch-o

Bersambung ke kuliah selanjutnya.
Related Posts Plugin for WordPress, Blogger...