Friday, September 09, 2022

Installing TexLive 2022 on Ubuntu 22.04 under Multipass

Multipass is a game changer. It looks like a virtual environment for python or a virtual box for OS, but for Ubuntu instances only (the hosts can be Windows and MacOS). This short writing documented my effort to enable the installation of TexLive 2022 for adding IEEE header and footer for camera-ready APSIPA 2022.

Host environment

bagus@L140MU:~$ snap --version
snap    2.56.2
snapd   2.56.2
series  16
ubuntu  20.04
kernel  5.15.0-46-generic
bagus@L140MU:~$ multipass --version
multipass   1.10.1
multipassd  1.10.1


1. Install multipass (refer to this link for detail).
2. Create an instance with Jammy (Ubuntu 22.04)
multipass launch jammy --disk 10G 
Launched: famed-chaffinch

2. Login to Jammy's shell (change the name of instance)
 multipass shell famed-chaffinch
3. Update Jammy
 sudo apt update
4. Install texlive and required packages
sudo apt install texlive-base texlive-fonts-extra texlive-fonts-recommended texlive-publisher
5. Try on the desired latex template
$ wget
$ sudo apt install unzip
$ unzip
$ cd APSIPA_ASC_2022_Template/Latex
$ pdflatex PaperSample_Guideline_tex.tex
Output written on PaperSample_Guideline_tex.pdf (3 pages, 126525 bytes).
Transcript written on PaperSample_Guideline_tex.log.
That's all. For 20.04, it will throw to an infinite recursion loop due to the lower fancy version. The only solution is to install newer Latex on Ubuntu 22.04 under multipass. For real cases, you may need to mount your local directory (which contains TEX files) to an instance with `multipass mount`.

Tuesday, August 23, 2022

Acoustic Feature Extraction with Transformers

The example in Transformers' documentation here shows how to use the wav2vec 2.0 model for automatic speech recognition. However, there are two crucial issues in that example. First, we usually use our data (set) instead of their (available) dataset. Second, we need to extract acoustic features (the last hidden states instead of logits). The following is my example of adapting Transformers to extract acoustic embedding given any audio file (WAVE) using several models. It includes the pooling average from frame-based processing to utterance-based processing for given any audio file. You don't need to perform the pooling average if you want to process your audio file in frame-based processing (remove the `.mean(axis=0)` in the variable `last_hidden_states`).

Basic syntax: wav2vec2 base model

This is the example from the documentation. I replaced the use of the dataset with the defined path of the audio file ('00001.wav').

from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torchaudio
import torch
# load model
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2Model.from_pretrained("facebook/wav2vec2-base-960h")

# audio file is decoded on the fly
array, fs = torchaudio.load("/data/A-VB/audio/wav/00001.wav")
input = processor(array.squeeze(), sampling_rate=fs, return_tensors="pt")

# apply the model to the input array from wav
with torch.no_grad():
    outputs = model(**input)

# extract last hidden state, compute average, convert to numpy
last_hidden_states = outputs.last_hidden_state.squeeze().mean(axis=0).numpy()

# print shape
print(f"Hidden state shape: {last_hidden_states.shape}")
# Hidden state shape: (768,)

The syntax for the wav2vec2 large and robust model

In this second example, I replace the base model with the large and robust model without finetuning. This example is adapted from here. Note that I replaced 'Wav2Vec2ForCTC' with 'wav2vec2Model'. The former is used when we want to obtain the logits (for speech-to-text transcription) instead of obtaining the hidden states.

from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch
import torchaudio

# load model
processor = Wav2Vec2Processor.from_pretrained(
model = Wav2Vec2Model.from_pretrained(

# audio file is decoded on the fly
array, fs = torchaudio.load("/data/A-VB/audio/wav/00001.wav")
input = processor(array.squeeze(), sampling_rate=fs, return_tensors="pt")

with torch.no_grad():
    outputs = model(**input)

last_hidden_states = outputs.last_hidden_state.squeeze().mean(axis=0).numpy()
# printh shape
print(f"Hidden state shape: {last_hidden_states.shape}")
You can replace "facebook/wav2vec2-large-robust-ft-swbd-300h" with "facebook/wav2vec2-large-robust-ft-libri-960h" for the larger fine-tuned model.

 For other models, you may need to change `Wav2Vec2Processor` with `Wav2Vec2FeatureExtractor` for processor variable. In my case, this is needed for the following models:
  • facebook/wav2vec2-large-robust
  • facebook/wav2vec2-large-xlsr-53

The syntax for the custom model (wav2vec-R-emo-vad)

The last one is the example of the custom model. The model is wav2vec 2.0 fine-tuned on the MSP-Podcast dataset for speech emotion recognition. This last example differs from the previous one since the configuration is given by the authors of the model (read the code thoroughly to inspect the details). I replaced the dummy audio file with the real audio file. It is assumed to process in batch (with batch_size=2) by replicating the same audio file.

import torch
import torch.nn as nn
from transformers import Wav2Vec2Processor
from transformers.models.wav2vec2.modeling_wav2vec2 import (
import torchaudio

class RegressionHead(nn.Module):
    r"""Classification head."""

    def __init__(self, config):


        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        self.dropout = nn.Dropout(config.final_dropout)
        self.out_proj = nn.Linear(config.hidden_size, config.num_labels)

    def forward(self, features, **kwargs):

        x = features
        x = self.dropout(x)
        x = self.dense(x)
        x = torch.tanh(x)
        x = self.dropout(x)
        x = self.out_proj(x)

        return x

class EmotionModel(Wav2Vec2PreTrainedModel):
    r"""Speech emotion classifier."""

    def __init__(self, config):


        self.config = config
        self.wav2vec2 = Wav2Vec2Model(config)
        self.classifier = RegressionHead(config)

    def forward(

        outputs = self.wav2vec2(input_values)
        hidden_states = outputs[0]
        hidden_states = torch.mean(hidden_states, dim=1)
        logits = self.classifier(hidden_states)

        return hidden_states, logits

def process_func(
    sampling_rate: int
    # embeddings: bool = False,
    r"""Predict emotions or extract embeddings from raw audio signal."""

    # run through processor to normalize signal
    # always returns a batch, so we just get the first entry
    # then we put it on the device
    # wavs = pad_sequence(wavs, batch_first=True)
    # load model from hub
    device = 'cpu'
    model_name = 'audeering/wav2vec2-large-robust-12-ft-emotion-msp-dim'
    processor = Wav2Vec2Processor.from_pretrained(model_name)
    model = EmotionModel.from_pretrained(model_name)

    y = processor([wav.cpu().numpy() for wav in wavs],          
    y = y['input_values']
    y =

    y = model(y)

    return {
        'hidden_states': y[0],
        'logits': y[1],

## test to an audiofile
sampling_rate = 16000
signal = [torchaudio.load('train_001.wav')[0].squeeze().to('cpu') for _ in range(2)]

# extract hidden states
with torch.no_grad():
    hs = process_func(signal, sampling_rate)['hidden_states']
print(f"Hidden states shape={hs.shape}")

Please note for all models, the audio file must be sampled with 16000 Hz, otherwise, you must resample it before extracting acoustic embedding using the methods above. It may not throw an error even if the sampling rate is not 16000 Hz but the results, hence, is not valid since all models were generated based on 16 kHz of sampling rate speech datasets. 

You may also want to extract acoustic features using the opensmile toolkit. The tutorial for Windows users using WSL is available here:

Happy reading. Don't wait for more time to apply these methods to your own audio file.

Wednesday, August 17, 2022

Siapa yang seharusnya membersihkan sampah B?

Andaikan sebuah eksperimen pikiran sebagai berikut.

A mengadakan suatu acara (panitia acara). B mengikuti acara tersebut (peserta acara). Jika B membuang sampah secara sembarangan di saat mengikuti acara tersebut, siapa yang wajib membersihkannya?

Jika anda masih menjawab A. Kita tambahkan kasus lain seperti ini.

B berada di rumahnya sendiri. B membuang sampah secara sembarangan di rumahnya sendiri. Siapa yang seharusnya membersihkan sampah B?

B yang seharusnya membuang sampahnya sendiri, tak peduli dimanapun. Selama itu sampahnya, maka dia sendiri yang wajib membuangnya, bukan orang lain.

Monday, August 01, 2022

Maksimal jumlah referensi self-citation

Best practice jumlah self-citation pada makalah akademik adalah 10% dari total jumlah referensi. Sumber lain membolehkan 7-20%  [1]. Untuk saya pribadi, jumlah maksimalnya adalah berdasarkan tabel dan rumus di bawah ini.

Number of references Max. self-citation
1-10 1
11-20 2
21-30 3
... ...
91-100 10

Contoh, jumlah referensi: 24, maksimal self-citation: 3.


$$ n\_cite=10\% \times ceil(n\_ref/10) \times 10 $$

Dimana n_cite adalah jumlah maksimal self-citation and n_ref adalah jumlah referensi.

Kenapa self-citation?

Karena biasanya kita meneliti dan menulis makalah akademik tidak dari nol, tapi dari penelitian-penelitian kita sebelumnya. Disinilah self-citation masuk.

Alasan kedua adalah untuk mendongkrak h-indeks (Scopus, G-scholar, WOS) peneliti yang bersangkutan.



Tuesday, July 05, 2022

Teknik Mendaki di Jalan Datar: Flat Foot

Catatan berikut merupakan teknik mendaki di jalan datar. Memangnya ada tekniknya untuk berjalan di jalan yang datar? Ada. Pada perjalanan panjang, menggunakan teknik berikut akan meminimalisir tenaga yang dikeluarkan, sekaligus meminimalkan kecapekan. Dua teknik yang penting adalah postur dan cara berjalan (ayunan kaki).


Bentuk postur berikut harus digunakan pada jalanan datar.

  1. Tegak/lurus. Berbeda dengan jalan naik yang mencondongkan badan ke depan atau teknik turun seperti gorilla, pada jalan posisi tubuh adalah tegak lurus.
  2. Menegakkan kepala. Kadang kita lupa untuk menegakkan kepala dengan menunduk melihat jalan, atau mendongak melihat pemandangan. Teknik utama pada jalan datar adalah menegakkan kepala.

Teknik Berjalan

  1. Flat foot / mendatarkan kaki. Ini adalah teknik utama berjalan di jalan datar. Sesuai namanya, flat foot mengayunkan lagi sedatar mungkin saat mengangkatnya dan menjejakkan ke tanah. Kalau berjalan normal, kita mengangkat kaki dengan pangkal kaki atau tumit (tumit menyentuh tanah terakhid) dan menjejak dengan jari kaki. Pada flat foot baik mengangkat dan menginjak dengan kaki yang datar. Lihat gambar di bawah untuk lebih jelasnya.
  2. Teknik mengangkat kaki dengan flat foot [1]

    Teknik menjejak kaki dengan flat foot [2]

  3. Mengangkat kaki serendah mungkin. Teknik terakhir adalah mengangkat kaki serendah mungkin, agar tidak capek (lebih tinggi mengangkat kaki lebih banyak tenaga yang dibutuhkan).

Lihat video tutorial berikut untuk prakteknya.



Friday, June 24, 2022

Membuka dan menyimpan file json

Studi kasus
Misalkan kita ingin menyimpan dataset berikut (RAVDESS Speech) dalam format json yang berisi file dan labelnya (data speech emotion recognition). Untuk keperluan tersebut kita ingin memisahkan antara data training ('train_meta_data.json') dan data test ('test_meta_data.json'). Skrip berikut memenuhi tujuan tersebut.
import os
import glob
import json

data_dir = '/data/Audio_Speech_Actors_01-24/'
files = glob.glob(os.path.join(data_dir, 'Actor_??', '*.wav'))

data_train = []
data_test = []

for file in files:
    lab = os.path.basename(file).split('-')[2]
    if int(file[-6:-4]) < 20: # speaker 1-19 for training
            'path': file,
            'label': lab
    else:                     # speaker 20-24 for test
            'path': file,
            'label': lab

with open("train_meta_data.json", 'w') as f:
        json.dump(data_train, f)

with open("test_meta_data.json", 'w') as f:
        json.dump(data_test, f)

import json
filepath = '/data/Audio_Speech_Actors_01-24/train_meta_data.json'
with open(filepath, 'r') as f:
     data_train = json.load(f)

Tuesday, May 10, 2022

Benchmarking SSD: INTEL SSDPEKNW020T8 (NVMe)

Berikut adalah hasil benchmarking SSD INTEL SSDPEKNW020T8 tipe NVMe. 

Capacity: 2TB 
Format partisi: FAT 



- Format yang dibenchmark kali ini adalah FAT, bisa jadi untuk ext4 dan xfs akan lebih cepat.
- SSD NVMe intel ini terlihat lebih stabil dibanding WDC, dengan kecepatan baca/tulis yang mirip. Lihat disini untuk hasil benchmark dengan SSD NVMe WDC:

Tuesday, April 26, 2022

Writing for impact, not for impact factor

Nowadays, research is measured by publication. Publish or perish. The pressure for researchers to publish is now more than ever. As a result, there are tons of research publications. Most of them may be garbage; only a small portion has an impact. So, what is the impact in research?

Impact factor

At first, I thought that "writing for impact is writing for impact factor" (since "impact" is measured by "impact factor"). By this definition, the author will seek for writing to the Journal which has high impact factors due "impact" is defined by the calculation of impact factor. In fact the (impact factor calculation is based on citations and the number of publications)[]. Hence, writing for impact factor is no more than writing for citations. I changed my mind recently, writing for impact is not writing for impact factor. The impact is different with (calculation of) impact factor. Now, some journals and conferences requested this "social impact" as an additional section in the author's manuscript [1, 2]. It is good. By this method (requesting to show the impact of their research), the impact of research now is clearer than before.

Kinds of social impact

Now, when asked to write the social impact of my writing, I am thinking of what social impact will be in my manuscript. Reference [1] requested explicitly what is the definition of "positive impact" for authors. A positive impact could be one of the following (my own definition).

1. Readers change their perspective. For instance, the paper entitled "Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization" proposed a new standard notation for fundamental frequency (in acoustics), i.e., by writing it as $f_o$ (ef-ow) instead of F0, $F_0$ or $f_0$ (ef-zero). This paper has a big social impact on the (acoustic) community.

2. Readers can learn. Many papers show their method clearly so the readers can learn and get the benefit from reading the paper. An instance is a paper entitled "CALFEM as a Tool for Teaching University Mechanics."

3. Readers can replicate. Open science is making a difference. Anyone can replicate the experiment of the authors. This kind of research is game-changing. Even big companies like Google, Microsoft, and Meta open their research publicly along with open repositories to replicate the research. Most of my research is also open science, one example is a paper entitled "Deep Multilayer Perceptrons for Dimensional Speech Emotion Recognition".

4. Readers can improve the result. One way to improve the current result is by explicitly proposing further directions. This statement usually is placed in the Conclusions or before this section.

5. A policy can be taken. This is the highest impact, a policy can be taken from a research result. For instance, to fight global warming (based on specific data), the government changes the policy to abandon the use of coal and move to nuclear energy. Or, based on the risk of nuclear energy, the government encourages the use of wind and solar energy.

Hope this opinion will change your minds; do not write for impact factor (only), but do write for real (social) impact.




Friday, April 22, 2022

Basic Audio Manipulation With Torchaudio

Recently, I moved my audio processing toolkit from librosa (and others) to Torchaudio. This short writing documented the very basics of torchaudio for audio manipulation: read, resample, and write an audiofile.

Load audio file (read)

The process of loading (reading) an audio file is straightforward, just pass the audio path to `torchaudio.load`. We need to import the needed modules first. Most audio files can be loaded by torchaudio (WAV, OGG, MP3, etc.).
import torchaudio
import torchaudio.transforms as T
wav0, sr0 = torchaudio.load("old_file_48k.wav", normalize=True) 
where wav0 is the output tensor (array) and sr0 is the original sampling rate. Argument `normalize=True` is optional to normalize the waveform. Note that one of my colleagues (a student) found that using `librosa.util.normalize()` resulted in better normalization (peak to peak waveform is -1 to 1) than this torchaudio normalization.


Resample a sampling rate to another sampling rate is done by a Class; the output is a function. Hence, we need to pass the old tensor to the resampler function. Here is an example to convert 48k tensor to 16k tensor.
sr1 = 16000
resampler = T.Resample(sr0, sr1)
wav1 = resampler(wav0)

Save as a new audio file (write)

The process of saving files is also straightforward, just pass the file name, tensor, and sampling rate in order.'new_file_16k.wav', wav1, sr1)
Then the new audio file appeared in the current directory. Just set the path and file name if you want to save it in another directory.



Tuesday, April 19, 2022

Tiga Tipe Ilmuwan..

Berdasarkan dialog Peter Gruss (rektor OIST) dan Kazuhiko Nakamura (CEO AIST) [1], yang pertama menjelaskan tentang tiga golongan ilmuwan sebagai berikut.

  1. Ilmuwan murni (pure scientist) seperti Albert Einstein
  2. Ilmuwan murni ini hanya memikirkan dan meriset apa yang dipikirkannya, tanpa memikirkan dampak luasnya (impak jangka panjang). Einstein pada saat meneliti teori relativitas tidak terpikirkan tentang teknologi global positioning system (GPS), padahal konsep relativitas tersebut penting untuk penemuan GPS lima puluh tahun setelah teori relativitas terbit.
  3. Ilmuwan aplikatif (use-inspired scientist) seperti Pasteur
  4. Yang dipikirkan oleh ilmuwan jenis ini adalah "Apa yang bisa saya lakukan untuk meningkatkan aspek tertentu kehidupan manusia?". Basisnya adalah ilmu, tujuannya mencari aplikasi dari ilmu tersebut. Contohnya adalah penelitian untuk mengembangkan teknik diagnostik baru, terapi, obat baru, seperti yang dilakukan Pasteur untuk menemukan antibiotik.
  5. Insinyur (engineer) seperti Thomas Alfa Edison
  6. Ilmuwan jenis ini hanya berkutat sedikit pada sains, yang penting bagaimana aplikasinya. Edison hanya fokus pada bagaimana cara menemukan bola lampu entah bagaimana caranya/ilmunya.
Jika anda ilmuwan (atau ingin menjadi ilmuwan), tipe ilmuwan manakah yang anda inginkan? Saya lebih tertarik pada tipe ketiga karena kontribusinya (impak sosial) lebih nyata.




Thursday, April 14, 2022

Menemukan dan Menghapus file (ekstensi tertentu, ukuran tertentu)

Menemukan fail

Pola: find [nama-direktori] -name [nama-file]


pc060066:~$ find . -name tes.txt

Tanda titik setelah find menunjukkan current directory (dalam hal ini /home/$USER).

Menemukan dan menghapus fail

Pola: find [nama-direktori] -name [nama-file-yang-dihapus] -delete


pc060066:~$ cp tes.txt tes-del.txt
pc060066:~$ find . -name tes-del.txt
pc060066:~$ find . -name tes-del.txt -delete
pc060066:~$ find . -name tes-del.txt
Terlihat file yang dihapus (tes-del.txt) tidak ada setelah perintah di atas.

Menemukan dan menghapus fail ekstensi tertentu

Pola: find [nama-direktori] -name ['*.ext'] -delete

pc060066:~$ mkdir test
pc060066:~$ cd test
pc060066:test$ ls
pc060066:test$ touch test{1..5}.txt
pc060066:test$ ls
test1.txt  test2.txt  test3.txt  test4.txt  test5.txt
pc060066:test$ touch
pc060066:test$ ls  test1.txt  test2.txt  test3.txt  test4.txt  test5.txt
pc060066:test$ find . -name '*.txt'
pc060066:test$ find . -name '*.txt' -delete
pc060066:test$ ls *.txt
ls: cannot access '*.txt': No such file or directory
Jangan lupa single quote diantara ekstensi ('*.txt'); untuk ekstensi lainnya tanda quote ini tidak perlu. Contohnya *.wav. Kita juga bisa mencari (dan menghapus) file ekstensi tertentu dengan nama tertentu. Contohnya menemukan (dan menghapus) file dengan nama berakhiran *_cd16k.wav.

Menemukan dan menghapus fail ukuran tertentu

Pola: find [nama-direktori] -name [nama-file-opsional] -size [ukuran, -, +] -delete

pc060066:test$ find . -size 4c
pc060066:test$ find . -size 4c -delete
pc060066:test$ ls
1001_DFA_ANG_XX.wav  test1.txt  test3.txt  test5.txt  test7.txt            test2.txt  test4.txt  test6.txt
pc060066:test$ find . -size -10c # find below 10 bytes
pc060066:test$ find . -size -10c -delete # delete below 10 bytes
pc060066:test$ ls
1001_DFA_ANG_XX.wav  test7.txt
pc060066:test$ find . -size +10c -delete # delete above 10 bytes
pc060066:test$ ls
Jadi tanda "-" untuk kurang dari dan "+" untuk lebih dari ukuran file yang dikehendaki. Tidak ada tanda maka hasilnya pada rentang nilai tersebut. Misal 10c untuk 10 bytes, 10k untuk 10 kilobytes, termasuk 10001 bytes sampai dengan 10999 bytes. 

Menghapus file kosong

Pola: find [nama-direktori] -empy -delete
pc060066:test$ find . -empty
pc060066:test$ find . -empty -delete
pc060066:test$ ls

Menghapus direktori kosong

Pola: find [nama-direktori] -d -empty -delete Contoh:
pc060066:test$ ls -ltr
total 20
drwxrwxr-x 2 bagus bagus 4096  4月 14 15:33 test_dir_5
drwxrwxr-x 2 bagus bagus 4096  4月 14 15:33 test_dir_4
drwxrwxr-x 2 bagus bagus 4096  4月 14 15:33 test_dir_3
drwxrwxr-x 2 bagus bagus 4096  4月 14 15:33 test_dir_2
drwxrwxr-x 2 bagus bagus 4096  4月 14 15:33 test_dir_1
pc060066:test$ find . -type d
pc060066:test$ find . -type d -empty
pc060066:test$ find . -type d -empty -delete
pc060066:test$ ls
Bedakan dengan perintah sebelumnya untuk file, untuk direktori kita perlu argumen "-type d".

Monday, April 11, 2022

Menuju Masyarakat 5.0 melalui riset dan pengembangan teknologi informasi

Setelah era revolusi industri (society 3.0) dan teknologi informasi (society 4.0) zaman kini menuju Masyarakat 5.0 (society 5.0). Apa itu Masyarakat 5.0? Tulisan ini menjelaskan secara singkat Masyarakat 5.0 dan beberapa contoh di dalamnya.

Masyarakat 5.0

Masyarakat 5.0 adalah kelanjutan masyarakat 4.0 dan sebelumnya. Untuk lebih jelasnya tentang pembagian masyarakat 1.0 - 4.0 silahkan lihat gambar di bawah ini. Era pertama masyarakat 1.0 merupakan masyarakat pemburu (mungkin masih ada sampai saat ini!). Mereka hidup berkumpul dan berburu. Masyarakat 2.0 adalah masyarakat agraria. Mereka bercocok tanam untuk memenuhi hidupnya. Masyarakat 3.0 menggunakan mesin (uap) untuk memperbaiki kehidupan sebelumnya dan mempercepat proses untuk kehidupan: proses pembangunan, pembuatan makanan, dan transportasi. Masyarakat 4.0 menggunakan teknologi informasi untuk memperbaiki kehidupan sebelumnya. Berkirim surat secara online (email), bertransaksi secara online dan beberapa hal lainnya. Di era 4.0 hampir semua hal sudah bisa dilakukan secara online, namun ada gap besar di dalam prosesnya. Belum ada sensor yang mengambil data secara terstruktur, belum ada data yang distandarkan secara global dan berukuran besar, belum ada pengolahan yang full otomatis. Tantangan itulah yang akan dijawab oleh masyarakat 5.0.

Gambar 1. Masyarakat 1.0 sampai dengan 4.0 [1]

Masyarakat 5.0, seperti terlihat pada Gambar 2, memanfaatkan keberlimpahan big data, yang ditangkap oleh Internet of Thing (IoT) yang tersambung ke banyak sensor. Big data ini menjadi input untuk artificial intelligence (AI) yang bertindak sebagai classifier untuk menghasilkan output berupa pengetahuan yang memudahkan hidup dan menjadi solusi dari permasalahan masyarakat. Contoh sederhana, ketika ada masyarakat yang sakit dia tidak perlu langsung ke rumah sakit. Cukup menggunakan smartphone atau PCnya, yang memiliki beberapa sensor kesehatan, untuk meminta diagnosa ke AI dan divalidasi oleh dokter di rumah sakit (Gambar 3). Teknologi informasi digunakan secara besar pada Masyarakat 5.0 untuk memudahkan hidup.
Gambar 2. Masyarakat 5.0 yang berorientasi pada kehidupan manusia yang lebih baik [1]

Beberapa contoh lainnya 

Gambar 4. Masyarakat medis 5.0 [1]

Gambar 3 mengilustrasikan contoh pada paragraf sebelumnya tentang Masyarakat 5.0 untuk diagnosa penyakit. Lebih lanjut lagi, di Gambar 4, jika dirasa kesehatan pasien memerlukan tindakan langsung oleh dokter, maka pasien tersebut bisa pergi ke rumah sakit (RS) dengan autonomous vehicle yang disediakan oleh RS. Teknologi autonomous (self-driving) vehicle ini akan menggantikan transportasi umum. Dengan otomasi transportasi umum, maka tingkat kecelakaan akan bisa ditekan seminimal mungkin. Kurir akan digantikan oleh drone. Pesawat, kereta api, bis dan transportasi lainnya akan lebih aman dan nyaman dengan kehadiran teknologi otomasi ini. 

Gambar 5. Autonomous vehicle Masyarakat 5.0 [1]

Di sisi lain, pemanfaatan teknologi informasi dan teknologi pada bidang perawatan (maintenance), seperti ditunjukkan oleh Gambar 5, akan memudahkan masyarakat. Tidak perlu lagi ada campur "tangan" (dalam arti benar-benar tangan) manusia untuk mengecek langsung, mengarahkan kendaraan, menginspeksi jembatan dan gedung-gedung tinggi, teroworongan dan sebagainya. Inspektor cukup memantau "kesehatan" infrastruktur tersebut melalui smartphone, PC, dan sejenisnya. 

Gambar 6. Masyarakat 5.0 di bidang maintenance [1]

Di sisi keuangan, transfer dana yang kini bisa dilakukan secara online akan berganti ke pembayaran cashless dengan biaya transfer yang seminimal mungkin. Teknologi blockchain akan memangkas waktu dan harga disamping meningkatkan keamanan dan kenyamanan transfer, baik nasional maupun internasional (ini yang saya masih ragu). 

Gambar 7. The future is cashless [1]


Riset saya, yang sebagian besar mulai diarahkan ke teknologi informasi, kini juga diarahkan untuk menjawab tantangan Masyarakat 5.0 (yang telah mulai direncakanan oleh Abe saat menjabat PM Jepang, dalam program abenomics). Diantara tantangan terbesarnya adalah: tingkat kelahiran yang turun dan masyarakat tua yang meningkat (di Jepang), antisipasi pada perubahan struktur industri dan membuat nilai kustomer baru, mempromosikan implementasi sosial pada teknologi (human-machine interaction, otomasi). Untuk mencapai hal tersebut riset saya akan fokus pada IoT dan akuisisi data, pengolahan data besar, dan AI/deep learning untuk mengolah data tersebut.

[1] Realizing Society 5.0,

Thursday, April 07, 2022

Terpaksa Berdzikir

Sudah lama saya tidak menulis tentang agama.

Senada dengan teknik di tulisan saya ini untuk memaksa belajar kanji, aka Terpaksa Belajar Kanji, aka belajar kanji otomatis, teknik berikut ini bisa memaksa kita berdzikir: memasang wallpaper screen lock handphone yang berisi dzikir.

Saya dapat inspirasi dari sini.

Di akhir ceramahnya, dai tersebut menyarankan jamaah untuk mengganti wallpaper screen lock HPnya dengan wallpaper (yang bermuatan) dzikir. Dan saya segera melaksakannya. Ini penampakannya.

Dalam kasus saya, saya tidak perlu mengganti wallpaper. Hanya mengganti "lock screen owner info" (Xiaomi, setting >> lock screen >> lock screen format >> lock screen owner info >> [tambahkan kalimat dzikir, misal subhanallah... :D]).

Teknik lain yang bisa memaksa berdzikir:

  1. Menjadikan dzikir sebagai password
  2. Memasang tulisan doa/dzikir di dinding 
  3. Memasang wallpaper laptop, tablet, dll dengan kalimat dzikir

Semoga, suatu saat, kita (baca: saya) bisa berdzikir dengan tanpa terpaksa, insyaAllah. Harus bisa. Pasti bisa.

Wednesday, April 06, 2022

New Paper: Survey on bimodal speech emotion recognition ...

Finally, the final version of my paper appeared in Elsevier. This is my second paper in Speech Communication Journal (currently it is Q1, IF: 2.0, CiteScore:4.8, h5-index: 28, google top 20). This one is open access in contrast to the previous subscription paper. Here is the link. For short descriptions, you can read through this passage.


Speech emotion recognition (SER) is traditionally performed using merely acoustic information. Acoustic features, commonly are extracted per frame, are mapped into emotion labels using classifiers such as support vector machines for machine learning or multi-layer perceptron for deep learning. Previous research has shown that acoustic-only SER suffers from many issues, mostly on low performances. On the other hand, not only acoustic information can be extracted from speech but also linguistic information. The linguistic features can be extracted from the transcribed text by an automatic speech recognition system. The fusion of acoustic and linguistic information could improve the SER performance. This paper presents a survey of the works on bimodal emotion recognition fusing acoustic and linguistic information. Five components of bimodal SER are reviewed: emotion models, datasets, features, classifiers, and fusion methods. Some major findings, including state-of-the-art results and their methods from the commonly used datasets, are also presented to give insights for the current research and to surpass these results. Finally, this survey proposes the remaining issues in the bimodal SER research for future research directions.



This is my first survey/review paper. I divided the contents into the building blocks of SER. First, I show the background of shifting from unimodal acoustic analysis to bimodal acoustic-linguistic information fusion. The rest is a comparison of more than a hundred papers. The most interesting part is that I summarized the comparison in several tables highlighting current state-of-the-art results (SOTA).


The most important results are Table 3, Table 4, and Table 5. Here is a screenshot of Table 3 which list the current SOTA for the IEMOCAP dataset.

Take home message

  1. There are several challenges listed in the paper
  2. Can we extract linguistic information without text? Yes, it can. Read here (actually it is included in the challenges part of my review paper, and someone already did it).


Don't forget to cite my paper as below if you get the benefit of reading that paper for your own manuscript.
Atmaja, B. T., Sasou, A., & Akagi, M. (2022). Survey on bimodal speech emotion recognition from acoustic and linguistic information fusion. Speech Communication, 140, 11–28.

Wednesday, March 30, 2022

Mencoba Docker

Setelah sekian lama ingin mencoba docker, kali ini saya benar-benar mencobanya. Selama ini saya bisa menghindari docker karena venv dan conda tidak pernah gagal. Karena kali ini conda gagal mendukung GPU di tensorflow 1.15, maka mau tidak mau Docker menjadi solusi terbaik. 

Gambar 1. Diagram alir ketika venv gagal, berlanjut ke conda, berlanjut ke docker. Selama venv berhasil membuat environment yang diinginkan saya akan memakainya sebagai pilihan pertama, jika tidak baru mencoba conda dan docker, secara bertahap. 

Docker Untuk Menginstall Software (Paket/Library) Baru

Sampai saat ini saya masih memakai Ubuntu 16.04 untuk laptop-laptop pribadi dan Ubuntu 20.04 untuk laptop-laptop kantor. Permasalahan pada OS lama adalah kegagalan untuk menginstall software versi baru. Kasus saya adalah menginstall paket opensmile python versi terbaru (versi 2.4.1) yang membutuhkan library glibc di atas versi 2.31. Library glibc ini tidak bisa diupate. Pernah sekali saya mengupdatenya dan system saya (Centos 7) langsung rusak dan harus install ulang. Docker adalah solusinya.
# asumsi docker sudah terinstall
$ docker run -it ubuntu bash
# jika ada masalah permission, lakukan: sudo chmod 666 /var/run/docker.sock
$ apt update
$ apt install python3
$ apt install python3-pip
$ python3 -m pip install opensmile
$ apt install libsndfile1 libsndfile1-dev
$ apt install sox
$ apt insalll ffmpeg
root@6e7dd3cbfee1:/# python3
Python 3.8.10 (default, Mar 15 2022, 12:22:08) 
[GCC 9.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import opensmile
>>> opensmile.__version__
>>> exit()
root@6e7dd3cbfee1:/# ldd --version ldd
ldd (Ubuntu GLIBC 2.31-0ubuntu9.7) 2.31
Copyright (C) 2020 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
Written by Roland McGrath and Ulrich Drepper.

Menyimpan file docker dengan commit

Docker tidak didesain untuk menyimpan file, untuk menyimpan file (dan perubahan/update) dari docker yang sedang berjalan dan docker-docker sebelumnya gunakan perintah commit berikut.
docker commit CONTAINER_ID IMAGE
$ docker ps -a # bisa juga dengan ps -l untuk docker yang sedang berjalan
$ dokcer commit ef7d7090e3c7 ubuntu:opensmile

Docker Untuk Menginstall Software Lama (Tensorflow 1.15 dengan GPU support) 

Skenario: Saya ingin menjalankan kode di repository berikut: Efficient Bigan, dengan GPU RTX 3090, yang saat itu (saat repo itu dibuat dengan tensorflow 1.15) belum diproduksi.
# asumsi docker belum terinstall
$ sudo apt install
$ curl #install curl jika belum ada
$ sudo systemctl --now enable docker
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
      && curl -s -L | sudo apt-key add - \
      && curl -s -L$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
$ sudo apt update
$ docker images      # list images docker 	 	
REPOSITORY                  TAG             IMAGE ID       CREATED       SIZE   22.04-tf1-py3   8b2abbd886f0   2 years ago   9.51GB
$ docker run --gpus all -it --rm
$ git clone
$ cd Efficient-GAN-Anomaly-Detection
$ python3 gan mnist run --nb_epochs=10 --label=0 
______   _____       _____       ____                                                                                                                   
|_     `.|_   _|     / ___ `.   .'    '.                                                                                                                 
  | | `. \ | |      |_/___) |  |  .--.  |                                                                                                                
  | |  | | | |   _   .'____.'  | |    | |                                                                                                                
 _| |_.' /_| |__/ | / /_____  _|  `--'  |                                                                                                                
|______.'|________| |_______|(_)'.____.'                                                                                                                 
[09:48:37 INFO @AnomalyDetection] Running script at gan.run_mnist                                                                                        
2022-03-30 09:48:37.916727: I tensorflow/stream_executor/platform/default/] Successfully opened dynamic library        
[09:48:37 WARNING @tensorflow] Deprecation warnings have been disabled. Set TF_ENABLE_DEPRECATION_WARNINGS=1 to re-enable them.                          
[09:48:38 WARNING @tensorflow] From /TA/demo/Efficient-GAN-Anomaly-Detection/gan/ The name tf.ConfigProto is deprecated. Please use
pat.v1.ConfigProto instead.                                                     
2022-03-30 09:48:44.229713: I tensorflow/stream_executor/platform/default/] Successfully opened dynamic library
2022-03-30 09:48:44.683684: I tensorflow/stream_executor/platform/default/] Successfully opened dynamic library
[09:48:51 INFO] Epoch terminated
Epoch 0 | time = 7s | loss gen = 0.7218 | loss dis = 1.3530 
[09:48:54 INFO] Epoch terminated
Epoch 1 | time = 3s | loss gen = 0.7747 | loss dis = 1.2383 
[09:48:57 INFO] Epoch terminated
Epoch 2 | time = 3s | loss gen = 0.8793 | loss dis = 1.0877 
[09:49:01 INFO] Epoch terminated
Epoch 3 | time = 3s | loss gen = 1.0170 | loss dis = 0.9235 
[09:49:04 INFO] Epoch terminated
Epoch 4 | time = 3s | loss gen = 1.1724 | loss dis = 0.7746 
[09:49:07 INFO] Epoch terminated
Epoch 5 | time = 3s | loss gen = 1.3378 | loss dis = 0.6493 
[09:49:11 INFO] Epoch terminated
Epoch 6 | time = 3s | loss gen = 1.5056 | loss dis = 0.5522 
[09:49:14 INFO] Epoch terminated
Epoch 7 | time = 3s | loss gen = 1.6597 | loss dis = 0.4744 
[09:49:17 INFO] Epoch terminated
Epoch 8 | time = 3s | loss gen = 1.7992 | loss dis = 0.4116 
[09:49:21 INFO] Epoch terminated
Epoch 9 | time = 3s | loss gen = 1.8616 | loss dis = 0.3848 
[09:49:21 WARNING] Testing evaluation...
[09:54:19 INFO] Testing : mean inference time is 1.5292
Testing | PRC AUC = 0.7183

Me-mount direktori 

Alih-alih membuat commit setiap kali kita mengedit, kita bisa memount direktori saat memanggil docker.
Skenario: Mengedit file diluar docker, mengeksekusi file (misal python) didalam docker. Caranya adalah sebagai berikut.
$ docker run --gpus all -it --mount type=bind,source=/TA,target=/TA tf1.15:py3
Dimana `source` adalah sumber direktori, dan `target` adalah target direktori. Image docker sebelumnya sudah saya commit menjadi `tf1.15` dengan tag `py3`. 

Menambahkan docker ke sudoers

Ketika membuka docker, terlihat bahwa tanda di baris kiri terminal adalah sharp #, ini menandakan kita masuk sebagai super user (sudo). Karenanya ada error saat membuka docker pertama kali (harus chmod 666 dulu). Solusi ini hanya berjalan sementara, untuk solusi permanen kita bisa menambahkan docker ke grup sudoers sebagai berikut.
# menambahkan grup baru bernama docker
$ sudo groupadd docker
# menambahkan $USER ke grup docker
$ sudo usermod -aG docker $USER
# merefresh grup
$ newgrp docker
Demikian tutorial singkat docker ini, semoga bermanfaat.


Tuesday, March 15, 2022

Permasalahan Ekuitas Jurnal Open Access

Jurnal dengan skema Open Access (OA) terlihat fair: jika anda (penulis) ingin tulisannya bebas diunduh (didownload), maka harus membayar article processing charge (APC). APC ini tidak murah, jurnal dimana saya mengirim tulisan saya, yakni Speech Communication, mematok USD 2390 untuk APC-nya. Daftar APC lengkap untuk jurnal Elsevier ada di sini. Jika tulisan kita diterima, maka kita bisa memilih subcription fee agar terhindar dari APC. Konsekuensinya, orang yang mau mengunduh tulisan kita harus membayar (melanggan) baik secara pribadi ataupun secara institusi. Catatan (baik) pentingnya, proses review tidak bergantung pada pilihan publikasi ini, baik open access atau subcription fee. Acceptance rate dari jurnal-jurnal Elsevier tetap kompetitif, sekitar 20-30% dari total 100% submisi.

Kembali kita tulis logika sederhananya.

Jika anda penulis ingin tulisan anda gratis diunduh, anda harus membayar APC. Jika tidak, maka pengunduh yang harus membayar biaya unduhannya.

Statement di atas terlihat logis, namun ada permasalahan mendasar pada logika di atas.


Bagaimana dengan penulis yang tidak memiliki dana untuk membayar APC padahal open science / open research itu seharusnya tetap diberlakukan (wajib) bagi mereka? Disinilah ketidakadilan (inequity) itu nampak.

Saya pun belum menemukan solusi untuk hal ini; pun demikian ada rekomendasi dari ON-MERRIT yang bisa dibaca di sini. Ada jurnal open access di [1] yang bebas APC, namun (mungkin) reputasinya dipertanyakan. Penerbit tentunya tidak mau rugi, namun harus tetap profesional dalam mencari biaya operasional perusahaan mereka.


1. Ada jurnal open access yang bebas biaya APC,  daftarnya ada di sini:

Tuesday, February 22, 2022

Haram menggunakan "nggih..." (dalam komunikasi Bahasa Indonesia)

Komunikasi antar rekan (kerja) merupakan hal penting dalam menjaga hubungan antar rekan kerja sekaligus ujung tombak penyelesaian pekerjaan. Bayangkan kalau dalam bekerja (tim) kita tidak berkomunikasi dengan rekan kerja. Namun ada satu keberatan yang saya rasakan ketika berkomunikasi dengan rekan kerja di +62 di kalangan orang Jawa (saya juga Jawa): penggunaan kata "nggih". Kenapa saya keberatan dengan penggunaan kata  nggih dalam komunikasi formal, semi formal, dan non-formal? Berikut alasannya.

1. Melecehkan bahasa Indonesia

Alasan pertama adalah pelecehan bahasa Indonesia. Salah satu kriteria untuk "memuliakan" bahasa adalah tidak mencampuradukkan bahasa satu dengan bahasa yang lain. Bahasa Indonesia dengan bahasa Inggris, bahasa Indonesia dengan bahasa Jawa. Kecuali kata tersebut tidak ada padanannya. Contoh: Itu tidak important. Apakah "important" tidak ada dalam bahasa Indonesia? Ada, "penting". Akan lebih baik mengatakan/menyatakan "itu tidak penting".

2. Tidak perlu

Alasan kedua, (jika misalnya alasan pertama telah dipenuhi) adalah bahwa penggunaan "nggih" tidak perlu. Dalam komunikasi formal, semi formal, dan non formal, kita perlu menggunakan bahasa yang datar. Sebisa mungkin tidak mengandung emosi (tapi ada empati bila perlu).


Minto tolong dikirim ke saya dokumen persyaratannya.

Minta tolong dikirim ke saya dokumen persyaratannya nggih...

Nggih pada contoh kedua tidak perlu. Contoh pertama tanpa nggih lebih singkat, menghindari pelecehan bahasa, dan ketidakperluan kata tambahan.

3. Berkesan memerintah

Alasan ketiga dan paling krusial dari larangan penggunaan nggih adalah: "berkesan memaksa atau memerintah".


Minto tolong dikirim ke saya dokumen persyaratannya.

Minta tolong dikirim ke saya dokumen persyaratannya nggih...

Alurnya seperti ini. Memerintah biasanya dilakukan oleh atasan ke bawahan. Namun, karena si pengirim pesan ini setara atau bahkan bawahan, maka tidak bisa memerintah rekan kerjanya, sehingga dipakailah kata "nggih.." tadi. Karena kata "nggih" itu kromo inggil dan dilakukan oleh bawahan ke atasan, jadi dengan menggunakan kata "nggih" si pengirim pesan menutupi pemaksaan/perintah dalam pesannya dengan kata "nggih" tersebut.

Sanggahan: Saya bukan ahli bahasa dan tulisan ini merupakan pendapat saya pribadi berdasarkan argumen di atas untuk diterapkan di kalangan internal saya  (meski saya mengklaim pendapat ini juga bersifat umum).

Saturday, February 05, 2022

Fuzzy search with FZF

`history` itu penting. Dengannya kita bisa mencari perintah-perintah apa saja yang telah kita panggil. Berikut contohnya.
$ history
# output
 1978  cd
 1979  cd github/CSS
 1980  cd github/CCS/
 1981  git pull
 1982  cd scripts/
 1983  ls
 1984  cp
 1985  code 
 1986  python3.8 -m IPython
 1987  cd
 1988  ls /groups/gac50538/
 1989  cd github/CSS/
 1990  ls
 1991  cd ..
 1992  ls
 1993  cd CCS/
 1994  ls
 1995  code csv/train_dataset_ccs.csv 
 1996  python3 -m IPython
 1997  python3 -m IPython
 1998  ssh
 1999  history
Lebih mudah lagi, perintah `history` bisa kita panggil dengan jalan pintas Ctrl-R. Kita bisa menggunakan Ctrl-R lagi untuk berputar (cycle) ke `history` selanjutnya. 


FZF membuat `history` terlihat usang. Atau bisa saja dikatakan memambah kemampuan `history` agar lebih bertenaga lagi: "fuzzy search". Perhatikan potongan video berikut.
sudo apt install fzf
# Ctrl-R
Untuk bisa menggunakan fitur tersebut, yakni mengganti Ctrl-R dari `history` ke `fzf`. Kita perlu tambahkan dua baris berikut ke .bashrc.
source /usr/share/doc/fzf/examples/key-bindings.bash
source /usr/share/doc/fzf/examples/completion.bash
Dari mana saya tahu agar menambahkan dua baris di atas? Dari output `apt-cache show fzf`, seperti disarankan di laman resminya.
Demikian, Ctrl-R sekarang sudah berganti ke `fzf` dari `history`. Selamat jalan `history`.

Thursday, January 27, 2022

Ekstraksi Fitur Akustik dengan Torchaudio

Kode di bawah ini mengekstrak tiga fitur akustik -- spectrogram, melspectrogram, dan mfcc -- dari sebuah file audio "filename" (wav, mp3, ogg, flacc, dll). Ketiga fitur akustik tersebut merupakan fitur-fitur akustik terpenting dalam pemrosesan sinyal wicara. Keterangan singkat ada di dalam badan kode. Hasil plot ada di bawah kode.

#import torch
import torchaudio
from matplotlib import pyplot as plt
import librosa

# show torchaudio version
# torch.__version__

def plot_spectrogram(spec, title=None, ylabel="freq_bin", aspect="auto",
    fig, axs = plt.subplots(1, 1)
    axs.set_title(title or "Spectrogram (db)")
    im = axs.imshow(librosa.power_to_db(spec), origin="lower", aspect=aspect)
    if xmax:
        axs.set_xlim((0, xmax))
    fig.colorbar(im, ax=axs)

filename = "/home/bagus/train_001.wav"  # change with your file
waveform, sample_rate = torchaudio.load(filename)

# Konfigurasi untuk spectrogam, melspectrogram, dan MFCC
n_fft = 1024
win_length = None  # jika None maka sama dengan n_fft
hop_length = 512   # y-axis in spec plot
n_mels = 64  # y-axis in melspec plot
fmin = 50
fmax = 8000
n_mfcc = 40  # must be smaller than n_mels, will be y-axis in plot

# definisi kelas untuk ekstraksi spektrogram
spectrogram = torchaudio.transforms.Spectrogram(

# Show plot of spectrogram
spec = spectrogram(waveform)
print(spec.shape)  # torch.Size([1, 513, 426])
plot_spectrogram(spec[0], title=f"Spectrogram - {str(filename)}")

## kelas untuk ekstraksi melspectrogram
melspectogtram = torchaudio.transforms.MelSpectrogram(

# Calculate melspec
melspec = melspectogtram(waveform)
melspec.shape # torch.Size([1, 513, 426])
plot_spectrogram(melspec[0], title=f"Melspectrogam - {str(filename)}")

## kelas untuk ekstraksi MFCC
mfcc_transform = torchaudio.transforms.MFCC(
      'n_fft': n_fft,
      'n_mels': n_mels,
      'hop_length': hop_length,
      'mel_scale': 'htk',

# plot mfcc
mfcc = mfcc_transform(waveform)
print(mfcc.shape) # torch.Size([1, 40, 426])
plot_spectrogram(mfcc[0], title=f"MFCC - {str(filename)}")


Wednesday, January 19, 2022

Choosing Journals and Conferences for Publication: Google Top 20 (and h5-index > 30)

If you want to publish your academic paper in a conference or journal, you may be confused about to which conference or journal you should submit your papers to. This short article may help you. To be categorized as a "reputable journal", my institution required two indicators below.

  1. It appears in Google Top 20 (all categories, categories, and sub-categories)
  2. It has Google H5-index > 30
For the first reason, it makes sense. The top twenty are the top 20 journals and conferences (mixed) which have the highest h5-index. I don't know the reason for the second reason why my institution chooses 30 as the limit of h5-index for "more incentive". It still makes sense since the higher h5-index means the higher impact.

From those two indicators, I choose the first as the main criteria for selecting publication. Here are five top 20 journals and conferences from all categories, categories, and two sub-categories in my field.

Google Top-20 (all categories)

For choosing categories, click "VIEW ALL" > Metrics > VIEW ALL.

Google Top 20 Category Engineering and Computer Sciences

Google Top 20 Category Life Sciences and Earth Sciences

Google Top 20 Sub-category: Signal Processing

Google Top 20 Sub-category: Acoustic and Audio

This guide for selecting criteria is not mandatory in my constitution. But they will give more bonus to the researchers if their publications are ranked by one or both criteria above (more bonus for both, maybe).

Tuesday, January 04, 2022

New Paper: Effect of Different Splitting Criteria on Speech Emotion Recognition


Traditional speech emotion recognition (SER) evaluations have been performed merely on a speaker-independent (SI) condition; some of them even did not evaluate their result on this condition (speaker-dependent, SD). This paper highlights the importance of splitting training and test data for SER by script, known as sentence-open or text-independent (TI) criteria. The results show that employing sentence-open criteria degraded the performance of SER. This finding implies the difficulties of recognizing emotion from speech in different linguistic information embedded in acoustic information. Surprisingly, text-independent criteria consistently performed worse than speaker+text-independent (STI) criteria. The full order of difficulties for splitting criteria on SER performances from the most difficult to the easiest is text- independent, speaker+text-independent, speaker-independent, and speaker+text-dependent. The gap between speaker+text- independent and text-independent was smaller than other criteria, strengthening the difficulties of recognizing emotion from speech in different sentences.


Experiment #1: average of 30 trials (runs)
Experiment #2: 5-fold cross-validation
Experiment #3: Same number of training and test data


Take home message

Sentence (or linguistic) information plays a crucial role in speech emotion recognition.

Full paper + code:

Related Posts Plugin for WordPress, Blogger...