bagustris@/home: Pentingnya intuisi dalam memahami persamaan matematika: Teorema Bayes

Friday, January 04, 2019

Pentingnya intuisi dalam memahami persamaan matematika: Teorema Bayes

Intuisi dari sebuah persamaan Matematika sangat penting, tanpanya kita tidak bisa memahami sebuah fenomena melalui sebuah rumus. Contohnya adalah hukum Newton, F = ma. Gaya yang sama yang dikenakan pada masa yang berbeda akan menghasilkan percepatan yang berbeda (Dosen saya dulu mengajarkannya, a = F/m, bukan F = m.a). Gaya yang sama diberikan pada bola akan menghasilkan percepatan yang besar, namun tidak pada sebuah mobil. Perhatikan gambar di bawah ini.

Kali ini bukan Hukum Newton yang kita bahas, melainkan Bayes rule, Teorema Bayes.

Teorema Bayes

Teorema Bayes merupakan formulasi "tingkat kepercayaan" terhadap probabilitas suatu event berdasar pengetahuan sebelumnya. Teorema Bayes dirumuskan sebagai berikut,

$$ P\left( W \middle| O \right) = \frac{P\left( O \middle| W \right)P\left( W \right)}{P(O)} $$

Untuk memahami persamaan di atas, perhatikan sebuah contoh berikut. Pada suatu populasi, 1% penduduknya adalah musisi sedangkan 10% dari total populasi adalah kidal. Sebuah survey terbaru menyatakan bahwa 60% musisi adalah kidal. Berapa probailitas bayi yang baru lahir yang kidal akan menjadi musisi?

Untuk menjawabnya kita cari masing-masing komponen pada Teorema Bayes:
$P(W|O) $ = populasi musisi yang kidal, $P(K|M) $
$P(O) $ = penduduk yang menjadi musisi, $P(M)$
$P(W) $ = penduduk yang kidal, $P(K)$
$P(O|W) $ = penduduk kidal yang menjadi musisi, $P(M|K)$

Maka,
$ P(M|K) = \dfrac {P(K|M) P(M)}{P(K)} $
$ P(M|K) = \dfrac{60\% \times 1\%}{10\%}$
$ P(M|K) = 6 \%$

Jadi, probabilitas bayi kidal yang akan menjadi musisi adalah 6 %. Disini kita menggunakan pengetahuan sebelumnya, yakni populasi sebagi musisi $P(M)$, untuk menebak bayi kidal yang akan menjadi musisi $P(M|K)$.

Jadi, intuisi dari persamaan teorema Bayes di atas adalah berikut:

Intuisi Teorema Bayes

Teorema Bayes pada pengenalan sinyal wicara

Pengenalan sinyal wicara (speech recognition) merupakan peristiwa statistik. Diberikan sekuens observasi ucapan $O=\{O_1, O_2, ..., O_N\}$ kita mencari kemungkinan terbesar kata $W = \{W_1, W_2, ..., W_N\}$. Dengan demikian kita mencari kemungkinan kata-kata diberikan data ucapan (suara), ditulis sebagai $P(W|O)$.

Dengan teorema Bayes maka permasalahan tersebut dapat diselesaikan. Karena sekuen kata tidak bergantung pada probabilitas ucapan $P(O)$ maka bagian pembagi dapat dihilangkan sehingga persamaanya menjadi,

$$ \hat{W} = argmax_W P(O|W) \times P(W)$$
Persamaan di atas dikenal sebagai persamaan dasar pengenalan sinyal wicara. $P(O|W)$ disebut dengan model akustik sedangkan $P(W)$ disebut sebagai model bahasa. Penyederhanaan teorema Bayes dengan membuang bagian penyebut diatas disebut sebagai Bayes naif (naive Bayes) karena antara event yang satu dengan yang lain saling independen dan tidak mempengaruhi.

Teorema Bayes pada Bag-of-words

View this post on Instagram

Packing for Mt. Fuji Climb tomorrow with @dwiprananto. Nalgene bottle sponsored by @tjiputgear #fujiclimb #bagofwords #montbell

A post shared by Bagus Tris Atmaja (@bagustris) on Aug 12, 2018 at 4:48am PDT

Bag-of-words merupakan model yang digunakan, khususnya, pada pemrosesan teks agar teks bisa diproses oleh komputer. Seperti tampak pada gambar dari instagram saya diatas, isi dari tas saya bermacam-macam, bayangkan jika isi tas saya tersebut (baju, dompet, kaos kaki, jaket, topi, botol air, dll) adalah kata-kata. Komputer hanya memahami angka, sehingga teks perlu dikonversi ke dalam angka (dan vektor!). Sederhananya, bag-of-words melibatkan dua hal:

Kosakata yang diketahui
Ukuran dari kemunculan kosakata tersebut

Seperi halnya isi tas: buku-buku, pulpen, telepon genggam, tissue, pensil, penghapus, laptop, tablet dan lain sebagainya, urutan dari item-item tersebut diabaikan. Intuisinya: jika sebuat teks memiliki kemiripan, maka isinya juga akan memiliki kemiripan.

Secara matematik, bag-of-words digunakan dalam Naive Bayes classifer sebagai berikut,

$$P(C|s_k) = P(\{ v_j | v_j~ in~ c\}|s_k)$$

$v_j$ adalah kata yang muncul dalam konteks. Dalam hal ini ada dua konsekuensi. Pertama adalah struktur dan urutan dari kata dalam konteks diabaikan, lainnya adalah kemunculan suatu kata independen dari kata lainnya.