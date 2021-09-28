Meskipun pengenalan ucapan biasanya disalahartikan sebagai pengenalan suara, pengenalan ucapan berfokus pada penerjemahan ucapan dari format verbal ke format teks, sedangkan pengenalan suara hanya berusaha mengidentifikasi suara pengguna.

IBM telah berperan penting dalam pengenalan suara sejak awal, dengan merilis "Shoebox" pada tahun 1962. Mesin ini memiliki kemampuan untuk mengenali 16 kata yang berbeda, memajukan karya awal dari Bell Labs dari tahun 1950-an. Namun, IBM tidak berhenti di situ, melainkan terus berinovasi selama bertahun-tahun, meluncurkan aplikasi VoiceType Simply Speaking pada tahun 1996. Perangkat lunak pengenalan suara ini memiliki kosakata dengan 42.000 kata, yang mendukung bahasa Inggris dan Spanyol, dan menyertakan kamus ejaan dengan 100.000 kata.

Kendati teknologi bicara memiliki kosakata yang terbatas pada masa awal, kini teknologi ini digunakan di berbagai industri, seperti otomotif, teknologi, dan perawatan kesehatan. Penerapannya terus meningkat dalam beberapa tahun terakhir karena kemajuan dalam pembelajaran mendalam dan big data. Penelitian (tautan berada di luar ibm.com) menunjukkan bahwa pasar ini diperkirakan bernilai USD 24,9 miliar pada tahun 2025.