Intuisi dari sebuah persamaan Matematika sangat penting, tanpanya kita tidak bisa memahami sebuah fenomena melalui sebuah rumus. Contohnya adalah hukum Newton, F = ma. Gaya yang sama yang dikenakan pada masa yang berbeda akan menghasilkan percepatan yang berbeda (Dosen saya dulu mengajarkannya, a = F/m, bukan F = m.a). Gaya yang sama diberikan pada bola akan menghasilkan percepatan yang besar, namun tidak pada sebuah mobil. Perhatikan gambar di bawah ini.
Kali ini bukan Hukum Newton yang kita bahas, melainkan Bayes rule, Teorema Bayes.
Kali ini bukan Hukum Newton yang kita bahas, melainkan Bayes rule, Teorema Bayes.
Teorema Bayes
Teorema Bayes merupakan formulasi "tingkat kepercayaan" terhadap probabilitas suatu event berdasar pengetahuan sebelumnya. Teorema Bayes dirumuskan sebagai berikut,
$$ P\left( W \middle| O \right) = \frac{P\left( O \middle| W \right)P\left( W \right)}{P(O)} $$
Untuk memahami persamaan di atas, perhatikan sebuah contoh berikut. Pada suatu populasi, 1% penduduknya adalah musisi sedangkan 10% dari total populasi adalah kidal. Sebuah survey terbaru menyatakan bahwa 60% musisi adalah kidal. Berapa probailitas bayi yang baru lahir yang kidal akan menjadi musisi?
Untuk menjawabnya kita cari masing-masing komponen pada Teorema Bayes:
$P(W|O) $ = populasi musisi yang kidal, $P(K|M) $
$P(O) $ = penduduk yang menjadi musisi, $P(M)$
$P(W) $ = penduduk yang kidal, $P(K)$
$P(O|W) $ = penduduk kidal yang menjadi musisi, $P(M|K)$
Maka,
$ P(M|K) = \dfrac {P(K|M) P(M)}{P(K)} $
$ P(M|K) = \dfrac{60\% \times 1\%}{10\%}$
$ P(M|K) = 6 \%$
Jadi, probabilitas bayi kidal yang akan menjadi musisi adalah 6 %. Disini kita menggunakan pengetahuan sebelumnya, yakni populasi sebagi musisi $P(M)$, untuk menebak bayi kidal yang akan menjadi musisi $P(M|K)$.
Jadi, intuisi dari persamaan teorema Bayes di atas adalah berikut:
Pengenalan sinyal wicara (speech recognition) merupakan peristiwa statistik. Diberikan sekuens observasi ucapan $O=\{O_1, O_2, ..., O_N\}$ kita mencari kemungkinan terbesar kata $W = \{W_1, W_2, ..., W_N\}$. Dengan demikian kita mencari kemungkinan kata-kata diberikan data ucapan (suara), ditulis sebagai $P(W|O)$.
Dengan teorema Bayes maka permasalahan tersebut dapat diselesaikan. Karena sekuen kata tidak bergantung pada probabilitas ucapan $P(O)$ maka bagian pembagi dapat dihilangkan sehingga persamaanya menjadi,
$$ \hat{W} = argmax_W P(O|W) \times P(W)$$
Persamaan di atas dikenal sebagai persamaan dasar pengenalan sinyal wicara. $P(O|W)$ disebut dengan model akustik sedangkan $P(W)$ disebut sebagai model bahasa. Penyederhanaan teorema Bayes dengan membuang bagian penyebut diatas disebut sebagai Bayes naif (naive Bayes) karena antara event yang satu dengan yang lain saling independen dan tidak mempengaruhi.
$$ P\left( W \middle| O \right) = \frac{P\left( O \middle| W \right)P\left( W \right)}{P(O)} $$
Untuk memahami persamaan di atas, perhatikan sebuah contoh berikut. Pada suatu populasi, 1% penduduknya adalah musisi sedangkan 10% dari total populasi adalah kidal. Sebuah survey terbaru menyatakan bahwa 60% musisi adalah kidal. Berapa probailitas bayi yang baru lahir yang kidal akan menjadi musisi?
Untuk menjawabnya kita cari masing-masing komponen pada Teorema Bayes:
$P(W|O) $ = populasi musisi yang kidal, $P(K|M) $
$P(O) $ = penduduk yang menjadi musisi, $P(M)$
$P(W) $ = penduduk yang kidal, $P(K)$
$P(O|W) $ = penduduk kidal yang menjadi musisi, $P(M|K)$
Maka,
$ P(M|K) = \dfrac {P(K|M) P(M)}{P(K)} $
$ P(M|K) = \dfrac{60\% \times 1\%}{10\%}$
$ P(M|K) = 6 \%$
Jadi, probabilitas bayi kidal yang akan menjadi musisi adalah 6 %. Disini kita menggunakan pengetahuan sebelumnya, yakni populasi sebagi musisi $P(M)$, untuk menebak bayi kidal yang akan menjadi musisi $P(M|K)$.
Jadi, intuisi dari persamaan teorema Bayes di atas adalah berikut:
Intuisi Teorema Bayes |
Teorema Bayes pada pengenalan sinyal wicara
Pengenalan sinyal wicara (speech recognition) merupakan peristiwa statistik. Diberikan sekuens observasi ucapan $O=\{O_1, O_2, ..., O_N\}$ kita mencari kemungkinan terbesar kata $W = \{W_1, W_2, ..., W_N\}$. Dengan demikian kita mencari kemungkinan kata-kata diberikan data ucapan (suara), ditulis sebagai $P(W|O)$.Dengan teorema Bayes maka permasalahan tersebut dapat diselesaikan. Karena sekuen kata tidak bergantung pada probabilitas ucapan $P(O)$ maka bagian pembagi dapat dihilangkan sehingga persamaanya menjadi,
$$ \hat{W} = argmax_W P(O|W) \times P(W)$$
Persamaan di atas dikenal sebagai persamaan dasar pengenalan sinyal wicara. $P(O|W)$ disebut dengan model akustik sedangkan $P(W)$ disebut sebagai model bahasa. Penyederhanaan teorema Bayes dengan membuang bagian penyebut diatas disebut sebagai Bayes naif (naive Bayes) karena antara event yang satu dengan yang lain saling independen dan tidak mempengaruhi.
Teorema Bayes pada Bag-of-words
- Kosakata yang diketahui
- Ukuran dari kemunculan kosakata tersebut
Seperi halnya isi tas: buku-buku, pulpen, telepon genggam, tissue, pensil, penghapus, laptop, tablet dan lain sebagainya, urutan dari item-item tersebut diabaikan. Intuisinya: jika sebuat teks memiliki kemiripan, maka isinya juga akan memiliki kemiripan.
Secara matematik, bag-of-words digunakan dalam Naive Bayes classifer sebagai berikut,
$$P(C|s_k) = P(\{ v_j | v_j~ in~ c\}|s_k)$$
$v_j$ adalah kata yang muncul dalam konteks. Dalam hal ini ada dua konsekuensi. Pertama adalah struktur dan urutan dari kata dalam konteks diabaikan, lainnya adalah kemunculan suatu kata independen dari kata lainnya.