Suara yang dihasilkan microphone bukan murni suara kita, namun suara kita dikalikan dengan respon microphone (yang tidak flat).
Bagaimana menganalisa sinyal (suara)?
1. Pendekatan non-parameterik
2. Pendekatan parametrik
Analisa Non-parametrik
Untuk mendapatkan sinyal target digunakan metode tanpa mengasumsikan model tertentu.Contoh:
$$Y(z) = H(z)X(z) + N(z)$$
Contoh dalam analisa suara:
- short term autocorrelation analysis
- short term spectral analysis
- cepstrum analysis
- band pass filter bank
- zero cross analysis
Analisis Parametrik
Untuk mendapatkan sinyal target, digunakan model tertentu dimana sinyal target bergantung pada (parameter) model.Contoh:
$$Y = f(a, b, c, ...)$$
dimana a, b, c, ... adalah parameter
Contoh dalam analisa suara: source filter model
Suara yang didengar manusia lainnya merupakan gabungan (perkalian) dari
sumber (glottis), filter (resonance) dan radiasi.
Pada sumber suara (glottis) respon yang dihasilkan adalah -12 dB/octave, sedang
pada radiasi terjadi peningkatan 6 dB/octave, sehingga suara yang diobservasi
masih menyisakan sekitar -6dB/octave. Dibutuhkan pre-emphasis untuk menganalisa
suara yang terobservasi ini. Pre-emphasis ini biasanya berupa highpass filter.
Contoh analisa parametrik:
- AbS: Analysis-by-Synthesis
- LPC: Linear Predictive Coding
Short term spectral analysis
Resolusi frekuensi waktu:window lebar: fine structure (source)
window sempit: temporal envolope (filter)
TFS, ENV dan Hilbert
TFS: Temporal Fine StructureENV: Temporal Envelope
Hilbert (transform): Untuk memisahkan sinyal suara kedalam TFS dan ENV
Keduanya (TFS and ENV) merupakan perubahan amplitudo dan frekuensi terhapad waktu, perhatikan gambar di bawah ini untuk penjelasan keduanya.
Analisis Kepstrum (Cepstrum, non-paramterik)
Kepstrum merupakan spectrum dikalikan dengan log scaledengan notasi yang sama, maka frekuensi menjadi kuafrensi, filter menjadi lifter.
Analysis/Synthesis system
Vocoder: voice coderDiantara komersial vocoder yang tersedia di pasar (Jepang) adalah Yamaha vocaloid dan Hatsune miku. Satu perusahaan baru di bidang ini adalah synthesizerv (dreamtonics). Hebaatnya, kesemua perusahaan vocoder tadi berbasis di Jepang.
Pada suara ucapan (speech, not music) setiap kata akan dipecah ke dalam fonem, unit terkecil bunyi.
Contoh: /ohayou/ --> /o/ /ha/ /yo/ /u/
Jika menggunakan teknik DFT biasa, maka keempat fonem tersebut akan dianggap sebagai satu kesatuan, padahal tidak. Disinilah shor-time Fourier transform (STFT) dipakai, dengan memecah sinyal ucapan (kata, pada contoh di atas) menjadi segmen atau frame karena sinyal suara tadi non-stasioner (dinamis terhadap waktu).