Speech Recognition - Pengertian, Jenis, Aspek dan Cara Kerja

Saatnya Anda berkolaborasi dengan kami!

Hubungi Kami

Speech Recognition - Pengertian, Jenis, Aspek dan Cara Kerja

Speech recognition, atau pengenalan suara, adalah teknologi yang memungkinkan sistem untuk mengenali dan mengidentifikasi suara, kata, atau frasa dalam bahasa lisan manusia. Teknologi ini kemudian mengubah suara tersebut menjadi format yang dapat diproses oleh mesin atau komputer untuk berbagai aplikasi, seperti terjemahan, pengkodean, hiburan, dan lainnya. Sebagai bagian dari kemajuan di bidang kecerdasan buatan, teknologi ini semakin umum diterapkan pada perangkat berbasis komputer yang mendukung perintah suara.

Speech recognition adalah proses identifikasi suara yang berfokus pada kata-kata yang diucapkan. Teknologi ini memungkinkan perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara mendigitalkan suara tersebut dan mencocokkannya dengan pola-pola tertentu yang tersimpan dalam perangkat. Hasil identifikasi suara ini digunakan oleh perangkat untuk menjalankan berbagai perintah.

Selain itu, speech recognition juga melibatkan konversi sinyal akustik yang ditangkap oleh mikrofon menjadi sinyal digital. Proses ini tidak hanya berfungsi untuk mengubah suara menjadi data digital, tetapi juga untuk memahami maksud dari ucapan yang disampaikan oleh pengguna. Dalam proses ini, sistem memetakan sinyal suara yang diterima dari sumber yang tidak dikenali ke dalam database suara yang sudah teridentifikasi.
 

Apa itu Speech Recognition?

Menurut Melissa (2008), speech recognition adalah sistem yang dirancang untuk mengenali perintah kata yang diucapkan oleh manusia dan kemudian mengubahnya menjadi data yang dapat dipahami dan diproses oleh komputer.

Adi, dkk (2019) menyatakan bahwa speech recognition merupakan kemampuan sebuah mesin atau program untuk mengenali kata dan frasa dalam bahasa lisan, lalu mengonversinya menjadi format yang bisa dibaca dan diproses oleh komputer.

Menurut Novita, dkk (2013), speech recognition adalah salah satu jenis pengenalan biometrik, di mana komputer mengenali ucapan seseorang melalui mikrofon, berdasarkan intonasi suara yang kemudian diubah menjadi pola digital. Proses awalnya melibatkan konversi spektrum suara menjadi format digital dan mengubahnya ke dalam bentuk diskrit.

Sementara itu, Amrizal dan Aini (2013) mengartikan speech recognition sebagai proses identifikasi suara yang berbasis pada kata-kata yang diucapkan, di mana sinyal akustik yang ditangkap oleh perangkat audio dikonversi menjadi data yang dapat dimengerti oleh komputer. Teknologi ini juga memungkinkan pengenalan perintah suara yang diterjemahkan ke dalam format yang dipahami oleh mesin.
 

Jenis-jenis Speech Recognition

Sistem pengenalan suara, atau speech recognition, adalah teknologi yang digunakan untuk mengubah bahasa lisan menjadi teks tertulis. Dalam sistem ini, input yang diterima berupa ucapan manusia, yang kemudian diidentifikasi dan diterjemahkan menjadi teks yang sesuai dengan apa yang diucapkan. Berdasarkan sumber suara atau pembicara, ada dua jenis utama dalam sistem pengenalan suara ini, yaitu:

a. Independent Speech Recognition
Independent speech recognition adalah sistem pengenal suara yang tidak bergantung pada siapa yang berbicara. Artinya, sistem ini dapat mengenali ucapan dari berbagai pembicara tanpa memerlukan pelatihan khusus. Namun, sistem ini memiliki keterbatasan dalam hal jumlah kosakata yang dapat dikenali. Untuk mencocokkan ucapan dengan kata yang ada dalam database, sistem ini menggunakan model statistik yang disebut Hidden Markov Model (HMM). Model ini bekerja dengan mencocokkan setiap ucapan dengan kata yang sudah dikenal dan memilih kata yang paling sesuai.

b. Dependent Speech Recognition
Berbeda dengan independent speech recognition, dependent speech recognition membutuhkan pelatihan khusus berdasarkan suara masing-masing pembicara. Setiap pembicara akan memiliki profil suara yang disimpan dalam sistem, dan profil ini digunakan untuk berinteraksi dengan sistem pengenal suara. Sistem ini lebih bergantung pada siapa yang berbicara, sehingga memungkinkan pengenalan ucapan yang lebih akurat, terutama ketika kosakata yang dikenali lebih banyak. Penggunaan sistem ini melibatkan perbandingan antara ucapan yang diucapkan dengan suara yang sudah disimpan dalam database, yang memungkinkan sistem mengenali kata dengan lebih baik.
Dengan dua jenis sistem ini, speech recognition dapat digunakan untuk berbagai aplikasi, tergantung pada kebutuhan, baik untuk sistem yang lebih fleksibel dan umum (independent) atau yang lebih spesifik dan terlatih sesuai pembicara (dependent).

 

Aspek-aspek Speech Recognition

Sistem speech recognition berfungsi untuk mengenali setiap unit bunyi yang membentuk ucapan, atau yang dikenal dengan fonem, dan kemudian mencoba mencari kombinasi ucapan yang paling sesuai. Pada tahap awal, sinyal ucapan akan diproses melalui penganalisis ucapan untuk mengidentifikasi ciri-ciri yang mudah diolah pada tahap berikutnya. Setiap ucapan yang berbeda akan menghasilkan pola ciri yang juga berbeda. Dalam proses ini, ada beberapa aspek penting yang perlu diperhatikan, yaitu:

a. Pemrosesan Suara
Tahap pertama dalam sistem speech recognition adalah produksi suara itu sendiri. Proses produksi suara melibatkan berbagai organ tubuh, seperti paru-paru, tenggorokan (trakea), larinks, faring, rongga hidung (nasal cavity), dan rongga mulut (oral cavity). Untuk menghasilkan suara ucapan, paru-paru menekan udara melalui epiglotis, di mana pita suara bergetar dan mengalirkan udara, menghasilkan gelombang tekanan quasi-periodik yang dikenal sebagai impuls pitch. Frekuensi sinyal tekanan ini disebut sebagai pitch frequency atau fundamental frequency.
Impuls pitch ini merangsang udara di dalam mulut, serta rongga hidung untuk suara tertentu (seperti suara nasal). Ketika rongga tersebut beresonansi, gelombang suara dipancarkan, yang kemudian menjadi sinyal wicara. Rongga mulut dan hidung berfungsi sebagai resonator dengan karakteristik frekuensi masing-masing, yang disebut formant frequencies.
Pembangkitan sinyal suara terjadi di sepanjang jalur vokal (vocal tract). Jalur vokal ini meliputi bagian bawah tenggorokan (laryngeal pharynx), antara langit-langit lunak dan tenggorokan (oral pharynx), di atas velum hingga ujung depan rongga hidung (nasal pharynx), serta rongga hidung itu sendiri.

b. Sistem Pengenalan Suara
Sistem pengenalan suara dimulai dengan sinyal suara yang diterima oleh mikrofon (sinyal analog), yang kemudian dikonversi menjadi sinyal digital dengan bantuan sound card pada komputer. Sinyal digital ini lalu dinormalisasi, yaitu disamakan panjangnya agar dapat diproses lebih lanjut. Setelah itu, sinyal diproses menggunakan Fast Fourier Transform (FFT) untuk mengubahnya ke dalam domain frekuensi. Proses ini memudahkan perbedaan antar pola kata menjadi lebih jelas, sehingga ekstraksi parameter sinyal dapat memberikan hasil yang lebih akurat. Hasil keluaran dari FFT ini kemudian dimasukkan ke dalam jaringan saraf tiruan Back Propagation, yang berperan utama dalam proses pengenalan suara.

c. Pencuplikan Suara
Pencuplikan suara adalah proses menentukan jumlah sampel yang diambil dalam satu detik. Sebagai contoh, jika pencuplikan dilakukan pada frekuensi 8.000 Hz, maka dalam satu detik akan ada 8.000 sampel suara. Frekuensi utama dari sinyal suara biasanya berada pada kisaran 300 - 3.400 Hz, sehingga frekuensi sampling harus lebih besar dua kali lipat dari frekuensi sinyal asli. Semakin tinggi frekuensi sampling, semakin baik kualitas sinyal digital yang dihasilkan. Selanjutnya, dilakukan kuantisasi untuk membatasi amplitudo atau nilai sinyal, dan jika sinyal dicuplik pada resolusi 8 bit, terdapat 256 nilai batas sinyal. Tahap terakhir adalah konversi analog ke digital, yaitu mengubah nilai amplitudo ke dalam bentuk biner, yang dapat disimpan dalam memori komputer sebagai data biner.

d. Normalisasi
Salah satu tantangan utama dalam speech recognition adalah perbedaan durasi rekaman meskipun kata atau kalimat yang diucapkan sama. Bahkan, untuk satu suku kata atau vokal yang sama, durasi perekaman sering kali bervariasi. Akibatnya, proses pencocokan antara sinyal uji dan template sinyal referensi seringkali tidak menghasilkan hasil yang optimal. Untuk mengatasi masalah ini, digunakan teknik dynamic-programming, yang lebih dikenal sebagai dynamic time warping (DTW). Teknik ini dirancang untuk mengakomodasi perbedaan waktu dalam perekaman, sehingga memungkinkan pencocokan yang lebih akurat antara sinyal uji dengan template sinyal referensi yang tersedia.

 

Tahapan dan Cara Kerja Speech Recognition

Speech recognition berfungsi untuk memproses sinyal suara yang diterima dan mengubahnya menjadi bentuk digital. Setelah digitalisasi, sinyal suara tersebut dikonversi ke dalam bentuk spektrum suara, yang kemudian dianalisis dengan membandingkannya dengan template suara yang tersimpan dalam database sistem. Teknologi ini memungkinkan perangkat untuk mengenali dan memahami huruf-huruf yang diucapkan dengan cara mendigitalisasi suara dan mencocokkan sinyal digital tersebut dengan pola yang telah disimpan dalam perangkat. Huruf yang diucapkan diubah menjadi sinyal digital, kemudian disesuaikan dengan kode tertentu untuk mengidentifikasi kata-kata yang dimaksud. Hasil dari identifikasi ini bisa ditampilkan dalam bentuk teks atau digunakan sebagai perintah untuk melakukan tugas tertentu.

Salah satu metode yang sering digunakan untuk mengkarakterisasi sinyal suara dalam speech recognition adalah Mel Frequency Cepstral Coefficients (MFCC). MFCC adalah metode ekstraksi fitur yang meniru cara kerja sistem pendengaran manusia. Metode ini berguna untuk mengekstrak karakteristik penting dari sinyal ucapan yang unik dan membedakan antara satu kata dengan kata lainnya. MFCC dianggap sebagai standar dalam ekstraksi fitur untuk pengenalan suara dan sangat umum digunakan dalam pemrosesan suara.

Berikut adalah tahapan dan langkah kerja dalam speech recognition menggunakan metode MFCC:
Prinsip Kerja Speech Recognition

a. Pre-Emphasis
Proses ini bertujuan untuk memfilter sinyal suara agar frekuensi tinggi pada sinyal dapat diperkuat, sementara noise yang ada pada sinyal dapat dikurangi. Dengan begitu, hanya sinyal ucapan yang akan diterima oleh sistem, sementara gangguan lainnya akan diminimalisir.

b. Framing
Pada tahap ini, sinyal suara dipotong menjadi segmen-segmen kecil yang disebut frame, masing-masing dengan durasi pendek. Proses framing dilakukan dengan cara tumpang tindih (overlap), sehingga tidak ada bagian dari sinyal yang hilang. Setiap frame akan disimpan dalam matriks yang berukuran M x W, dan proses ini akan terus berlanjut hingga seluruh sinyal terpecah menjadi frame-frame yang lebih kecil.

c. Windowing
Windowing bertujuan untuk mendapatkan sampel sinyal yang lebih tepat pada setiap interval waktu yang sangat singkat. Hasil dari proses ini adalah window X(t), di mana t = 1, 2, 3, …, T, yang disebut frame. Teknik yang digunakan dalam windowing adalah Hamming Windowing, yang berguna untuk mengurangi efek kebocoran spektral.

d. Fast Fourier Transform (FFT)
FFT adalah metode yang digunakan untuk mengubah sinyal suara menjadi sinyal dalam domain frekuensi. Proses ini dilakukan pada setiap frame sinyal yang telah melalui tahap windowing. FFT merupakan algoritma cepat untuk menerapkan Discrete Fourier Transform (DFT), yang bekerja pada sinyal diskrit untuk menghasilkan informasi frekuensi.

e. Mel Filterbank
Mel filterbank adalah proses yang mengubah frekuensi hasil FFT menjadi skala frekuensi mel, yang lebih sesuai dengan cara pendengaran manusia. Proses ini dimulai dengan menentukan batas atas dan bawah untuk filter, dan setiap filter kemudian dibagi berdasarkan jumlah filter yang diinginkan. Hasil dari proses FFT kemudian dikalikan dengan mel-filterbank untuk mendapatkan representasi sinyal pada skala mel.

f. Discrete Cosine Transform (DCT)
DCT adalah tahap akhir dalam proses ini yang mengubah sinyal dari domain frekuensi kembali ke domain waktu. DCT digunakan untuk menghitung koefisien dari hasil perkalian mel-filterbank yang telah dikonversi sebelumnya. Hasil akhirnya adalah Mel-Frequency Cepstral Coefficients (MFCC), yang merupakan representasi fitur utama dari sinyal ucapan yang dapat digunakan untuk proses pengenalan suara selanjutnya.