Pengenalan suara—juga dikenal sebagai pengenalan suara otomatis (ASR), pengenalan suara komputer atau speech to text— adalah kemampuan yang memungkinkan program untuk memproses ucapan manusia ke dalam format tertulis.
Meskipun pengenalan ucapan biasanya disalahartikan sebagai pengenalan suara, pengenalan ucapan berfokus pada penerjemahan ucapan dari format verbal ke format teks, sedangkan pengenalan suara hanya berusaha mengidentifikasi suara pengguna.
IBM telah berperan penting dalam pengenalan suara sejak awal, dengan merilis "Shoebox" pada tahun 1962. Mesin ini memiliki kemampuan untuk mengenali 16 kata yang berbeda, memajukan karya awal dari Bell Labs dari tahun 1950-an. Namun, IBM tidak berhenti di situ, melainkan terus berinovasi selama bertahun-tahun, meluncurkan aplikasi VoiceType Simply Speaking pada tahun 1996. Perangkat lunak pengenalan suara ini memiliki kosakata dengan 42.000 kata, yang mendukung bahasa Inggris dan Spanyol, dan menyertakan kamus ejaan dengan 100.000 kata.
Kendati teknologi bicara memiliki kosakata yang terbatas pada masa awal, kini teknologi ini digunakan di berbagai industri, seperti otomotif, teknologi, dan perawatan kesehatan. Penerapannya terus meningkat dalam beberapa tahun terakhir karena kemajuan dalam pembelajaran mendalam dan big data. Penelitian (tautan berada di luar ibm.com) menunjukkan bahwa pasar ini diperkirakan bernilai USD 24,9 miliar pada tahun 2025.
Banyak aplikasi dan perangkat pengenalan suara yang tersedia, tetapi solusi yang lebih canggih menggunakan AI dan machine learning. Mereka mengintegrasikan tata bahasa, sintaksis, struktur, dan komposisi sinyal audio dan suara untuk memahami dan memproses ucapan manusia. Idealnya, mereka belajar sambil berjalan—respons yang berkembang dengan setiap interaksi.
Jenis sistem terbaik juga memungkinkan organisasi untuk menyesuaikan dan mengadaptasikan teknologi dengan kebutuhan spesifik mereka—mulai dari bahasa dan nuansa bicara hingga pengenalan merek. Sebagai contoh:
Sementara itu, pengenalan suara terus maju. Perusahaan, seperti IBM, membuat terobosan di beberapa bidang, lebih baik untuk meningkatkan interaksi manusia dan mesin.
Keanehan bicara manusia telah membuat perkembangan menjadi tantangan. Ini dianggap sebagai salah satu bidang ilmu komputer yang paling kompleks—yang melibatkan linguistik, matematika, dan statistik. Pengenal ucapan terdiri dari beberapa komponen, seperti input ucapan, ekstraksi fitur, vektor fitur, dekoder, dan output kata. Dekoder memanfaatkan model akustik, kamus pengucapan, dan model bahasa untuk menentukan output yang sesuai.
Teknologi pengenalan suara dievaluasi berdasarkan tingkat akurasinya, yaitu tingkat kesalahan kata (WER), dan kecepatan. Sejumlah faktor dapat memengaruhi tingkat kesalahan kata, seperti pengucapan, aksen, nada, volume, dan kebisingan latar belakang. Mencapai kesetaraan manusia – yang berarti tingkat kesalahan yang setara dengan dua orang yang berbicara – telah lama menjadi tujuan sistem pengenalan suara. Penelitian dari Lippmann (tautan berada di luar ibm.com) memperkirakan tingkat kesalahan kata sekitar 4 persen, tetapi sulit untuk mereplikasi hasil dari makalah ini.
Berbagai algoritma dan teknik komputasi digunakan untuk mengenali ucapan menjadi teks dan meningkatkan akurasi transkripsi. Di bawah ini adalah penjelasan singkat mengenai sebagian metode yang paling umum digunakan:
Sejumlah besar industri memanfaatkan berbagai aplikasi teknologi suara saat ini, membantu bisnis dan konsumen menghemat waktu dan bahkan menyelamatkan nyawa. Beberapa contohnya antara lain:
Otomotif: Pengenal suara meningkatkan keselamatan pengemudi dengan mengaktifkan sistem navigasi yang diaktifkan dengan suara dan kemampuan pencarian di radio mobil.
Teknologi: Agen virtual makin terintegrasi dalam kehidupan kita sehari-hari, terutama pada perangkat seluler kita. Kita menggunakan perintah suara untuk mengaksesnya melalui ponsel cerdas, seperti melalui Google Assistant atau Siri dari Apple, untuk melakukan berbagai tugas, seperti pencarian suara, atau melalui speaker, melalui Alexa dari Amazon atau Cortana dari Microsoft, untuk memutar musik. Teknologi ini akan terus berintegrasi ke dalam produk sehari-hari yang kita gunakan, mendorong gerakan “Internet of Things”.
Kesehatan: Dokter dan perawat memanfaatkan aplikasi dikte untuk menangkap dan merekam diagnosis dan catatan perawatan pasien.
Penjualan: Teknologi pengenalan suara memiliki beberapa aplikasi dalam penjualan. Teknologi ini dapat membantu pusat panggilan mentranskripsikan ribuan panggilan telepon antara pelanggan dan agen untuk mengidentifikasi pola dan masalah panggilan umum. Chatbot AI juga dapat berbicara dengan orang-orang melalui halaman web, menjawab pertanyaan umum, dan menyelesaikan permintaan sederhana tanpa perlu menunggu agen pusat kontak tersedia. Dalam kedua contoh tersebut, sistem pengenalan suara membantu mengurangi waktu penyelesaian masalah konsumen.
Keamanan: Seiring teknologi berintegrasi ke dalam kehidupan kita sehari-hari, protokol keamanan menjadi prioritas yang makin meningkat. Otentikasi berbasis suara menambahkan tingkat keamanan yang layak.
Mengubah ucapan menjadi teks menggunakan pengenalan suara dan transkripsi ucapan yang didukung AI.
Mengubah teks menjadi ucapan yang terdengar alami dalam berbagai bahasa dan suara.
Perangkat lunak hybrid cloud yang didukung AI.
IBM watsonx Assistant membantu organisasi dalam menghadirkan pengalaman pelanggan yang lebih baik dengan chatbot AI yang memahami bahasa bisnis, terhubung ke sistem layanan pelanggan yang ada, dan dapat digunakan di mana saja dengan keamanan dan skalabilitas perusahaan. watsonx Assistant mengotomatiskan tugas-tugas yang berulang dan menggunakan machine learning untuk menyelesaikan masalah dukungan pelanggan dengan cepat dan efisien.