Tren AI terbaru, dipersembahkan oleh para pakar
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Pengenalan suara—juga dikenal sebagai pengenalan suara otomatis (ASR), pengenalan suara komputer atau speech to text— adalah kemampuan yang memungkinkan program untuk memproses ucapan manusia ke dalam format tertulis.
Meskipun pengenalan ucapan biasanya disalahartikan sebagai pengenalan suara, pengenalan ucapan berfokus pada penerjemahan ucapan dari format verbal ke format teks, sedangkan pengenalan suara hanya berusaha mengidentifikasi suara pengguna.
IBM telah berperan penting dalam pengenalan suara sejak awal, dengan merilis "Shoebox" pada tahun 1962. Mesin ini memiliki kemampuan untuk mengenali 16 kata yang berbeda, memajukan karya awal dari Bell Labs dari tahun 1950-an. Namun, IBM tidak berhenti di situ, melainkan terus berinovasi selama bertahun-tahun, meluncurkan aplikasi VoiceType Simply Speaking pada tahun 1996. Perangkat lunak pengenalan suara ini memiliki kosakata dengan 42.000 kata, yang mendukung bahasa Inggris dan Spanyol, dan menyertakan kamus ejaan dengan 100.000 kata.
Kendati teknologi bicara memiliki kosakata yang terbatas pada awal penemuannya, kini teknologi ini digunakan di berbagai industri, seperti otomotif, teknologi, dan perawatan kesehatan. Penerapannya terus meningkat dalam beberapa tahun terakhir karena kemajuan dalam pembelajaran mendalam dan big data. Riset menunjukkan bahwa pasar ini diperkirakan akan bernilai USD 24,9 miliar pada tahun 2025.
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Banyak aplikasi pengenalan suara dan perangkat yang tersedia, tetapi solusi yang lebih canggih menggunakan kecerdasan buatan (AI) dan machine learning. Mereka mengintegrasikan tata bahasa, sintaksis, struktur, dan komposisi sinyal audio dan suara untuk memahami dan memproses ucapan manusia. Idealnya, mereka belajar sambil berjalan — respons yang berkembang dengan setiap interaksi.
Jenis sistem terbaik juga memungkinkan organisasi untuk menyesuaikan dan mengadaptasikan teknologi dengan kebutuhan spesifik mereka—mulai dari bahasa dan nuansa bicara hingga pengenalan merek. Sebagai contoh:
Sementara itu, pengenalan suara terus maju. Perusahaan, seperti IBM, membuat terobosan di beberapa bidang, lebih baik untuk meningkatkan interaksi manusia dan mesin.
Keanehan bicara manusia telah membuat perkembangan menjadi tantangan. Ini dianggap sebagai salah satu bidang ilmu komputer yang paling kompleks—yang melibatkan linguistik, matematika, dan statistik. Pengenal ucapan terdiri dari beberapa komponen, seperti input ucapan, ekstraksi fitur, vektor fitur, dekoder, dan output kata. Dekoder memanfaatkan model akustik, kamus pengucapan, dan model bahasa untuk menentukan output yang sesuai.
Teknologi pengenalan suara dievaluasi berdasarkan tingkat akurasinya, yaitu tingkat kesalahan kata (WER), dan kecepatan. Sejumlah faktor dapat memengaruhi tingkat kesalahan kata, seperti pengucapan, aksen, nada, volume, dan kebisingan di latar belakang. Mencapai kesetaraan manusia – yang berarti tingkat kesalahan yang setara dengan dua manusia yang berbicara – telah lama menjadi tujuan sistem pengenalan suara. Penelitian dari Lippmann memperkirakan tingkat kesalahan kata sekitar 4 persen, tetapi sulit untuk mereplikasi hasil dari makalah ini.
Berbagai algoritma dan teknik komputasi digunakan untuk mengenali ucapan menjadi teks dan meningkatkan akurasi transkripsi. Di bawah ini adalah penjelasan singkat mengenai sebagian metode yang paling umum digunakan:
Sejumlah besar industri memanfaatkan berbagai aplikasi teknologi suara saat ini, membantu bisnis dan konsumen menghemat waktu dan bahkan menyelamatkan nyawa. Beberapa contohnya antara lain:
Otomotif: Pengenal suara meningkatkan keselamatan pengemudi dengan mengaktifkan sistem navigasi yang diaktifkan dengan suara dan kemampuan pencarian di radio mobil.
Teknologi: Agen virtual makin terintegrasi dalam kehidupan kita sehari-hari, terutama pada perangkat mobile kita. Kita menggunakan perintah suara untuk mengaksesnya melalui ponsel cerdas, seperti melalui Google Assistant atau Siri dari Apple, untuk melakukan berbagai tugas, seperti pencarian suara, atau melalui pengeras suara, melalui Alexa dari Amazon atau Cortana dari Microsoft, untuk memutar musik. Teknologi ini akan terus berintegrasi ke dalam produk sehari-hari yang kita gunakan, mendorong gerakan “Internet of Things”.
Kesehatan: Dokter dan perawat memanfaatkan aplikasi dikte untuk menangkap dan merekam diagnosis dan catatan perawatan pasien.
Penjualan: Teknologi pengenalan suara memiliki beberapa aplikasi dalam penjualan. Teknologi ini dapat membantu pusat panggilan mentranskripsikan ribuan panggilan telepon antara pelanggan dan agen untuk mengidentifikasi pola dan masalah panggilan umum. Chatbot AI juga dapat berbicara dengan orang melalui halaman web, menjawab pertanyaan umum, dan menyelesaikan permintaan sederhana tanpa perlu menunggu agen pusat kontak tersedia. Dalam kedua contoh tersebut, sistem pengenalan suara membantu mengurangi waktu penyelesaian masalah konsumen.
Keamanan: Seiring teknologi berintegrasi ke dalam kehidupan kita sehari-hari, protokol keamanan menjadi prioritas yang makin meningkat. Otentikasi berbasis suara menambahkan tingkat keamanan yang layak.
Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.
Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.