bagustris@/home: Pengolahan sinyal auditori [2]

Monday, December 17, 2018

Pengolahan sinyal auditori [2]

Ini adalah catatan kuliah yang saya transkrip ketika kuliah berlangsung: I656 - Human Perceptual Systems and its Models, pertemuan kedua.

Sistem auditori merupakan sistem pendengaran manusia.
Video tentang sistem auditori berikut memvisualisasikan tulisan di bawah ini:

Telinga manusia terbagi menjadi 3:
1. telinga bagian luar
2. telinga bagian tengah
3. telinga bagian dalam

Gambar berikut menjelaskan bagian-bagian telinga tersebut yang akan dijelaskan lebih detil di bawahnya.

Anatomi telinga

Telinga bagian luar

Komponen telinga bagian luar:

pinna (daun telinga)
concha
kanal telinga

Fungsi telinga bagian luar: untuk mengemphasis suara frekuensi tingggi yang penting --> untuk pendengaran spasial (menentukan sumber suara dll).

Anatomi vs fisiologi sistem pendengaran?
Pendekatan anatomi bertujuan untuk mengorganisasi dan memberi nama pada tiap bagian sistem pendengaran.
Pendekatan fisiologis bertujuan untuk mengetahui fungsi tiap organ (peripheral) pada sistem pendengaran.

Suara diindera oleh telinga sebagai tekanan suara (perbedaan tekanan udara), informasi ini dikonversi oleh ear drum menjadi vibrasi mekanik kemudian diproese oleh basilar membrane menjadi basilar membrane motion (BMM) dan akhirnya pulse train (neural firing) di auditory nerve.

Elevasi dan azimuth (cone of confusion?)
Untuk menentukan posisi sumber suara, dua acuan digunakan yakni elevasi (sudut datang) dan azimuth (sudut ketinggian). Salah satu aplikasi penggunaan dua acuan tersebut adalah ITD dan ILD.

Desibel?
desi = Basis 10. bel, diambil dari nama Alexander Graham Bell. Satu desibel sama dengan sepersepuluh bel. Desibel dirumuskan sebagai berikut,
$$ dB = 10 \log_{10} \dfrac{I_o} {I_i} $$

dimana $I_o$ dan $I_i$ merupakan Intensitas terukur (output) dan intensitas referensi (input). Jadi desibel merupakan perbandingan daya dalam skala logaritmik. Jika yang digunakan adalah perbandingan tekanan suara, maka persamaan di atas menjadi,

$$ dB = 20 \log_{10} \dfrac{P_{rms}} {P_{ref}} $$

dimana $P_{ref}$ adalah reference sound pressure, biasanya diapakai (mendekati) $20 \mu Pa$.

Telinga bagian tengah

Fungsi telinga bagian tengah = impedance matching antara ruang yang terisi air (ear canal) dengan ruang yang terisi udara (cochlea).
Jadi apa itu impedansi? Anda bisa googling atau simak dua analogi berikut.
Analogi 1: Rangkaian listrik. Misal ada dua rangkaian listrik yang terhubung. Jika output impedansi dari rangkaian 1 sama dengan output impedansi dari rangkaian 2, maka performansinya maximum (yakni 1/2). Ini banyak diaplikasikan pada pemilihan kabel (audio).
Analogi 2: Berbicara dengan seseorang yang sedang menyelam, bagaimana caranya? ambil tongkat besi tempelkan ke pipi anda dan panggilah teman anda yang sedang menyelam di kolam. Tongkat besi itu sebagai "impedance matching"

Cochlea

Dalam satu pipa cochlea terdapat tiga ruang (duct): scala vestibulli, scala media dan scala timpani. Diantara kedua scala dipisahkan oleh membrane: Reisnerr's membrane memisahkan scala vestibuli dengan scala media dan basilar membrane memisahkan scala media dengan scala timpani. Di dalam scala media terdapat organ corti. Di dalam organ corti, terdapat inner hair cell dan outer hair cell. Inner hair cell berfungsi sebagai sensory sell (yang mendeteksi suara) sedangkan outer hair cell berfungsi untuk amplifikasi (non-linear). Letak masing-masing organ tersebut digambarkan secara jelas pada gambar di bawa ini.

Anatomi Cochlea (sumber: Wikipedia)

Jika cochlea diatas dibentangkan, maka bentuknya akan menyerupai silinder. Oval window and round window pada ujung cohclea tersebut saling berhubungan terbalik. Artinya jika oval window bergerak maju, maka round window akan bergerak mundur ke arah yang berlawanan. Lihat video di bawah ini untuk mengetahui respon Cochlea terhadap frekuensi yang berbeda.

Organ corti

Dua komponen penting organ corti: hair cells dan tectorial membrane.
Rambut yang masuk ke dalam tectorial membrane disebut outer hair cell, sedangkan yang tidak masuk kedalam tectorial membrane disebut inner hair cell.
inner hair cell: mengkonversi getaran bassilar membrane menjadi neural firing.
Outer hair cell berfungsi untuk stretching ketika basilar membrane aktif (bergetar). Sehingga Outer hair cell bertindak sebagai gain atau amplifier dari getaran basilar membrane.

Telinga bagian dalam

Fungsi cochlea: untuk dekomposisi frekuensi suara
Gelombang berjalan yang melalui bassilar membrane menjalar dari frekuensi tinggi pada awal masuk (base) ke frekuensi rendah di ujung bassilar membrane.
Analogi, dua orang A dan B memegang tali. Si A menggerakkan tali, agar getaran sampai pada B, maka A mengayunkan tali dengan cepat sehingga timbul gelombang berjalan frekuensi tinggi.
Sebaliknya, jika A mengayunkan tali dengan pelan, gelombang tali akan sampai pada B dengan frekuensi rendah. Tali ini adalah gelombang bunyi (tekanan udara) dan si B merupakan eardrum. Jadi, gelombang berjalan tadi menghasilkan getaran eardrum yang berkesesuaian.

BBM (Bassilar Membrane Motion): variasi tekanan of 2 ruangan
Tuning bassilar membrane motion. Kebalikan dari tuning BMM ini merupakan bandpass filter.
Gammatone filter? Karena distribusi impulse responsenya (transfer function) menyerupai distribusi gamma.

Dari telinga ke otak
Afferent: Peripheral auditori ke auditori korteks
Efferent: Otak ke peripheral auditori
Perjalanan sinyal (pulse train) dari cochlea ke auditori cortex:
Cochlea --> Cochlear Nucleus --> Superior Olive --> Lateral Lemniscus --> Inferior Colliculus --> Medial Genniculate --> Auditory cortex

Video di bawah ini menjelaskan proses transduksi auditori di atas.

Fletcher-Manson curve
Fletcher curve atau Fletcher-Manson curve merupakan kurva penting untuk mengetahui jangakauan pendengaran. Kurva ini direvisi menjadi equal-loudness countour (lihat gambar di bawah). Pada garis kurva paling bawah merupakan batas pendengaran manusia pada frekuensi yang berkaitan. Kurva paling atas merupakan "limit of damage risk" sedangkan kurva suara yang menyebabkan kerusakan (threshold of pain) tidak ditamplikan pada kurva tsb (di atasnya yang paling atas).

Produksi suara
sinyal suara yang kita persepsi (observed) terdiri atas tiga: glottis (sumber), resonansi (filter) dan radiasi F0 berasal glottis (sumber getaran), sedangkan F1, F2 and F3 berasal dari (bentuk) vocal tract.

Persepsi suara
Misal, mode pertama dari getaran 100 Hz adalah 200 Hz, mode kedua 300 Hz, dst. Mode-mode itu dinamakan harmonik, jika kita invers transform Fourrier maka akan kita dapatkan x(t)
$$ x(t)=FT^{-1} F(\omega) $$
Contoh aplikasi: bunyi vokal (A,I, U, E, O) bisa dikenali dari letak posisi F1 & F2-nya. Gambar dibawah merupakan posisi F1 dan F2 vokal bahasa Inggris (kiri) dan bahasa Jepang (kanan).

Jika ingin memahami lebih jauh tentang auditory system, bisa menyimak kuliah dari RWTH Aachen berikut: https://www.youtube.com/watch?v=NhOPl3odqCQ

Bersambung disini.