Perangkat lunak Speech to text berisi beberapa komponen. Antara lain:

Input ucapan: di mana mikrofon menangkap kata-kata yang diucapkan

Ekstraksi fitur: di mana komputer mengidentifikasi nada dan pola yang khas dalam ucapan)

Decoder: di mana algoritma mencocokkan fitur ucapan dengan karakter dan kata melalui model bahasa

Hasil kata: di mana teks akhir diformat dengan tanda baca dan huruf besar yang benar sehingga dapat dibaca oleh manusia

Umumnya, proses speech to text terdiri dari langkah-langkah berikut:

Prapemrosesan audio: Setelah audio direkam, data tersebut terlebih dahulu diproses untuk meningkatkan kualitas dan memastikan akurasi dalam pengenalan suara. Proses ini mencakup penghapusan suara latar belakang dan frekuensi yang tidak relevan, penyesuaian level volume, segmentasi klip audio untuk mempermudah pemrosesan, serta konversi file audio ke format standar.

Analisis suara dan ekstraksi fitur: Sinyal suara sering digambarkan sebagai spektogram (tautan berada di luar ibm.com), yang merupakan representasi visual dari frekuensi dari waktu ke waktu.1 Bagian-bagian yang relevan dari rekaman audio dipecah menjadi urutan fonem, yang merupakan unit ucapan terkecil yang membedakan 1 kata dari kata lainnya. Kelas utama dari fonem adalah vokal dan konsonan (tautan berada di luar ibm.com).2 Model bahasa dan decoder dapat mencocokkan fonem dengan kata-kata dan kemudian kalimat. Model akustik berbasis pembelajaran mendalam mampu memprediksi karakter dan kata yang kemungkinan besar muncul berikutnya berdasarkan konteks ucapan.

Ada tiga metode utama untuk melakukan pengenalan suara: sinkron, asinkron, dan streaming.

Recognition sinkron adalah ketika ada konversi langsung speech to text. Itu hanya dapat memproses file audio yang lebih pendek dari satu menit. Ini digunakan dalam keterangan langsung untuk siaran televisi.

Pengenalan streaming adalah ketika audio streaming diproses secara real-time, sehingga teks yang dihasilkan mungkin muncul secara bertahap saat pengguna masih berbicara.

Pengenalan asinkron terjadi ketika file audio berukuran besar yang telah direkam sebelumnya dikirim untuk proses transkripsi. Mungkin diantri untuk diproses dan dikirimkan nanti.

Perusahaan seperti Google3 (tautan berada di luar ibm.com), Microsoft4 (seperti yang berada di luar ibm.com), Amazon5 (tautan berada di luar ibm.com) dan IBMmenawarkan perangkat lunak speech to text sebagai API melalui cloud, yang memungkinkannya untuk digunakan bersama dengan aplikasi, alat, dan perangkat lain.

Apple iPhone memiliki fitur dikte (link resides outside ibm.com), yang mengintegrasikan speech to text teknologi yang dimasukkan ke dalam iOS. PenggunaAndroid dapat mengunduh aplikasi seperti Gboard (link resides outside ibm.com) untuk fungsi speech to text. Beberapa perangkat piksel memungkinkan pengguna mengetik dengan suara melalui Asisten.7 Ada berbagai opsi untuk perangkat lunak speech to text sumber terbuka dan eksklusif.