Apa itu pengenalan suara?

Apa itu pengenalan suara?

Pengenalan suara—juga dikenal sebagai pengenalan suara otomatis (ASR), pengenalan suara komputer atau speech to text— adalah kemampuan yang memungkinkan program untuk memproses ucapan manusia ke dalam format tertulis.

Meskipun pengenalan ucapan biasanya disalahartikan sebagai pengenalan suara, pengenalan ucapan berfokus pada penerjemahan ucapan dari format verbal ke format teks, sedangkan pengenalan suara hanya berusaha mengidentifikasi suara pengguna.

IBM telah berperan penting dalam pengenalan suara sejak awal, dengan merilis "Shoebox" pada tahun 1962. Mesin ini memiliki kemampuan untuk mengenali 16 kata yang berbeda, memajukan karya awal dari Bell Labs dari tahun 1950-an. Namun, IBM tidak berhenti di situ, melainkan terus berinovasi selama bertahun-tahun, meluncurkan aplikasi VoiceType Simply Speaking pada tahun 1996. Perangkat lunak pengenalan suara ini memiliki kosakata dengan 42.000 kata, yang mendukung bahasa Inggris dan Spanyol, dan menyertakan kamus ejaan dengan 100.000 kata.

Kendati teknologi bicara memiliki kosakata yang terbatas pada awal penemuannya, kini teknologi ini digunakan di berbagai industri, seperti otomotif, teknologi, dan perawatan kesehatan. Penerapannya terus meningkat dalam beberapa tahun terakhir karena kemajuan dalam pembelajaran mendalam dan big data. Riset menunjukkan bahwa pasar ini diperkirakan akan bernilai USD 24,9 miliar pada tahun 2025.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Fitur utama pengenalan suara yang efektif

Banyak aplikasi pengenalan suara dan perangkat yang tersedia, tetapi solusi yang lebih canggih menggunakan kecerdasan buatan (AI) dan machine learning. Mereka mengintegrasikan tata bahasa, sintaksis, struktur, dan komposisi sinyal audio dan suara untuk memahami dan memproses ucapan manusia. Idealnya, mereka belajar sambil berjalan — respons yang berkembang dengan setiap interaksi.

Jenis sistem terbaik juga memungkinkan organisasi untuk menyesuaikan dan mengadaptasikan teknologi dengan kebutuhan spesifik mereka—mulai dari bahasa dan nuansa bicara hingga pengenalan merek. Sebagai contoh:

  • Pembobotan bahasa: Meningkatkan ketepatan dengan memberi bobot pada kata-kata tertentu yang sering diucapkan (seperti nama produk atau jargon industri), di luar istilah yang sudah ada dalam kosakata dasar.

  • Pelabelan pembicara: Menghasilkan output transkripsi yang mengutip atau menandai kontribusi setiap pembicara pada percakapan dengan beberapa peserta.

  • Pelatihan akustik: Memperhatikan sisi akustik dari bisnis. Melatih sistem untuk beradaptasi dengan lingkungan akustik (seperti kebisingan sekitar di pusat panggilan) dan gaya pembicara (seperti nada suara, volume, dan kecepatan).

  • Penyaringan kata-kata kotor: Gunakan filter untuk mengidentifikasi kata atau frasa tertentu dan membersihkan output ucapan.

Sementara itu, pengenalan suara terus maju. Perusahaan, seperti IBM, membuat terobosan di beberapa bidang, lebih baik untuk meningkatkan interaksi manusia dan mesin.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Algoritma pengenalan suara

Keanehan bicara manusia telah membuat perkembangan menjadi tantangan. Ini dianggap sebagai salah satu bidang ilmu komputer yang paling kompleks—yang melibatkan linguistik, matematika, dan statistik. Pengenal ucapan terdiri dari beberapa komponen, seperti input ucapan, ekstraksi fitur, vektor fitur, dekoder, dan output kata. Dekoder memanfaatkan model akustik, kamus pengucapan, dan model bahasa untuk menentukan output yang sesuai.

Teknologi pengenalan suara dievaluasi berdasarkan tingkat akurasinya, yaitu tingkat kesalahan kata (WER), dan kecepatan. Sejumlah faktor dapat memengaruhi tingkat kesalahan kata, seperti pengucapan, aksen, nada, volume, dan kebisingan di latar belakang. Mencapai kesetaraan manusia – yang berarti tingkat kesalahan yang setara dengan dua manusia yang berbicara – telah lama menjadi tujuan sistem pengenalan suara. Penelitian dari Lippmann memperkirakan tingkat kesalahan kata sekitar 4 persen, tetapi sulit untuk mereplikasi hasil dari makalah ini.

Berbagai algoritma dan teknik komputasi digunakan untuk mengenali ucapan menjadi teks dan meningkatkan akurasi transkripsi. Di bawah ini adalah penjelasan singkat mengenai sebagian metode yang paling umum digunakan:

  • Pemrosesan bahasa alami (NLP): Meskipun NLP belum tentu merupakan algoritma khusus yang digunakan dalam pengenalan suara, NLP adalah bidang kecerdasan buatan yang berfokus pada interaksi antara manusia dan mesin melalui bahasa melalui ucapan dan teks. Banyak perangkat mobile yang menggabungkan pengenalan suara ke dalam sistem mereka untuk melakukan pencarian suara—misalnya Siri—atau menyediakan lebih banyak aksesibilitas seputar pesan teks. 

  • Model Markov tersembunyi (HMM): Model Markov tersembunyi dibangun di atas model rantai Markov, yang menetapkan bahwa probabilitas keadaan tertentu bergantung pada keadaan saat ini, bukan keadaan sebelumnya. Sementara model rantai Markov berguna untuk peristiwa yang dapat diamati, seperti input teks, model Markov tersembunyi memungkinkan kita untuk memasukkan peristiwa tersembunyi, seperti tag bagian dari ucapan, ke dalam model probabilistik. Mereka digunakan sebagai model urutan dalam pengenalan suara, menetapkan label ke setiap unit—yaitu kata, suku kata, kalimat, dll.—dalam urutan. Label ini membuat pemetaan dengan input yang disediakan, memungkinkannya untuk menentukan urutan label yang paling tepat.

  • N-gram: Ini adalah jenis model bahasa (LM) paling sederhana yang memberikan probabilitas pada kalimat atau frasa. N-gram adalah urutan N-kata. Misalnya, “order the pizza” adalah trigram atau 3 gram dan “please order the pizza” adalah 4 gram. Tata bahasa dan probabilitas urutan kata tertentu digunakan untuk meningkatkan pengenalan dan akurasi.

  • Neural Networks : Terutama dimanfaatkan untuk algoritma pembelajaran mendalam, neural networks memproses data pelatihan input dengan meniru interkonektivitas otak manusia melalui lapisan node. Setiap node terdiri atas input, bobot, bias (atau ambang batas), dan output. Jika nilai output tersebut melebihi ambang batas yang diberikan, sistem ini akan “menembak” atau mengaktifkan node, meneruskan data ke lapisan berikutnya dalam jaringan. Neural networks mempelajari fungsi pemetaan ini melalui pembelajaran diawasi, penyesuaian didasarkan pada fungsi kesalahan melalui proses penurunan gradien. Meskipun neural networks cenderung lebih akurat dan dapat menerima lebih banyak data, sistem ini memerlukan biaya efisiensi kinerja karena cenderung lebih lambat untuk dilatih dibandingkan dengan model bahasa tradisional.

  • Speaker Diarization (SD): Algoritma Speaker diarization mengidentifikasi dan mengelompokkan ucapan berdasarkan identitas pembicara. Hal ini membantu program membedakan individu dalam percakapan dengan lebih baik dan sering diterapkan di pusat panggilan untuk membedakan pelanggan dan agen penjualan.

Contoh penggunaan pengenalan suara

Sejumlah besar industri memanfaatkan berbagai aplikasi teknologi suara saat ini, membantu bisnis dan konsumen menghemat waktu dan bahkan menyelamatkan nyawa. Beberapa contohnya antara lain:

Otomotif: Pengenal suara meningkatkan keselamatan pengemudi dengan mengaktifkan sistem navigasi yang diaktifkan dengan suara dan kemampuan pencarian di radio mobil.

Teknologi: Agen virtual makin terintegrasi dalam kehidupan kita sehari-hari, terutama pada perangkat mobile kita. Kita menggunakan perintah suara untuk mengaksesnya melalui ponsel cerdas, seperti melalui Google Assistant atau Siri dari Apple, untuk melakukan berbagai tugas, seperti pencarian suara, atau melalui pengeras suara, melalui Alexa dari Amazon atau Cortana dari Microsoft, untuk memutar musik. Teknologi ini akan terus berintegrasi ke dalam produk sehari-hari yang kita gunakan, mendorong gerakan “Internet of Things”.

Kesehatan: Dokter dan perawat memanfaatkan aplikasi dikte untuk menangkap dan merekam diagnosis dan catatan perawatan pasien.

Penjualan: Teknologi pengenalan suara memiliki beberapa aplikasi dalam penjualan. Teknologi ini dapat membantu pusat panggilan mentranskripsikan ribuan panggilan telepon antara pelanggan dan agen untuk mengidentifikasi pola dan masalah panggilan umum. Chatbot AI juga dapat berbicara dengan orang melalui halaman web, menjawab pertanyaan umum, dan menyelesaikan permintaan sederhana tanpa perlu menunggu agen pusat kontak tersedia. Dalam kedua contoh tersebut, sistem pengenalan suara membantu mengurangi waktu penyelesaian masalah konsumen.

Keamanan: Seiring teknologi berintegrasi ke dalam kehidupan kita sehari-hari, protokol keamanan menjadi prioritas yang makin meningkat. Otentikasi berbasis suara menambahkan tingkat keamanan yang layak.

Solusi terkait
IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate
Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate Jelajahi solusi NLP