bagustris@/home: (Computational) Auditory Scene Analysis

Wednesday, September 21, 2011

(Computational) Auditory Scene Analysis

Setelah pada posting sebelumnya, saya bercerita tentang metode pemisahan sinyal suara dengan Blind Source Separation atau BSS kali ini saya akan mengulas sedikit tentang metode pemisahan sinyal suara lainnya, yang lebih dekat ke bagaimana sistem pendengaran manusia bekerja memisahkan sumber - sumber suara. Metode itu dinamakan Computational Auditory Analysis atau disingkat CASA yang merupakan representasi komputasional dari ASA (Auditory Scene Analysis).

Skema Arsitektur CASA [1]

ASA diperkenalkan oleh Al Bregman (psikolog) untuk menjelaskan bagaimana sistem pendengaran manusia bekerja, khususnya dalam memisahkan dan mengidentifikasi lokasi sumber bunyi yang di dengar oleh telinga berdasarkan teori dan eksperimen psikologi terhadap sistem pendengaran manusia. Bregman berpendapat bahwa saat manusia mendengar suara pada dasarnya dia melakukan proses auditory scene analysis. Proses ASA tersebut dibagi menjadi dua tahap, yakni tahap segmentasi dimana terjadi pengelompokan elemen-elemen akustik berdasarkan time-frequency dan tahap kedua adalah pengelompokan elemen-elemen tersebut berdasarkan sumber-sumber suara yang sama. Skema arsitektur sistem CASA dapat digambarkan pada gambar diatas.

CASA yang mewakili implementasi komputasi dari ASA-nya Bregman secara garis besar terdiri dari dua tahap. Proses pertama, segmentasi campuran suara akustik terbagi atas beberapa element. Sebuah elemen mungkin menjadi elemen atomic dari auditory scene yang menggambarkan kejadian secara akustik. Kemudian, elemen-elemen ini membentuk grup yang anggotanya berasal dari sumber suara yang sama. Grup tersebut menghasilkan struktur perseptual yang disebut stream. Sebagai contoh, ketika ada orang berbicara, maka vocal tract-nya merupakan sumber suara sedangkan representasi mental dari orang yang berbicara merupakan stream.

Tahapan - tahapan proses (bottom-up/data-driven) CASA [2]

Proses pengelompokan elemen suara (grouping) bisa terbagi lagi menjadi dua, yakni data-driven (primitive) atau schema-driven (knowledge-based). Pada pengelompokan berdasarkan data-driven, pendengar mengeksploitasi secara heuristik elemen-elemen suara untuk membentuk objek yang koheren. Sedangkan pada schema-driven, pendengar menggunakan pengetahuan yang telah dipelajari untuk membedakan jenis-jenis suara, apakah itu musik, suara manusia dan lain-lain. Gambar di atas merupakan blok diagram implementasi ASA model data-driven dalam sistem komputasi.

Prinsip yang digunakan pada grouping (grouping rules)

Untuk menyatukan (grouping) stream, apakah menjadi dua stream atau satu stream, ada beberapa prinsip yang diusulkan, khususnya oleh Al Bregman (penulis buku ASA). Prinsip-prinsip tersebut, berdaksarkan psikologi Gestalt, yakni:

Kemiripan
Kontinuitas yang baik
Onset dan offset
Ritme
Alokasi pemisahan (elemen suara hanya menjadi satu bagian dari stream pada satu waktu)
Penutupan/blocking

Prinsip-prinsip tersebut menjadikan suatu elemen suara menyatu dengan suatu stream atau terpisah membentuk stream yang lain. Gambar di bawah ini menjelaskan perbedaan elemen-elemen suara dalam satu stream dan dua stream. Jika perbedaan frekuensi antara dua stream tersebut tinggi, maka akan dipisah menjadi dua stream (gambar kiri), sebaliknya akan dipersepsi menjadi satu stream (gambar kanan).

Stream pada elemen suara (sumber: Al Bregman)

Referensi:

Wang, De Liang and Brown, Guy J (Ed), 2006, Computational Auditory Scene Analysis: Principle, Algorithms and Applications, IEEE Press.
Brown '92, Hu & Wang '02, as appeared on Dan Ellis' presentation: Computational Auditory Scene Analysis.