My IBM Masuk Berlangganan

Apa itu speech to text?

14 Oktober 2024

 

 

Penyusun

Charlotte Hu

IBM Content Contributor

Amanda Downie

Inbound Content Lead, AI Productivity & IBM Consulting

Apa itu speech to text?

Speech to text adalah proses mengubah kata-kata yang diucapkan menjadi transkrip teks. Sering disebut sebagai voice-to-text, teknologi ini umumnya tersedia dalam bentuk layanan berbasis perangkat lunak perangkat lunak sebagai layanan (SaaS).

Teknologi ini biasanya mengintegrasikan pengenalan suara berbasis kecerdasan buatan, yang juga dikenal sebagai pengenalan suara otomatis, dengan kemampuan transkripsi. Program komputer menangkap audio sebagai getaran gelombang suara, lalu menggunakan algoritme linguistik untuk mengonversi input tersebut menjadi karakter digital, kata, dan frasa.

Teknologi seperti machine learning, pembelajaran mendalam, dan model bahasa besar seperti Generative Pre-Trained Transformer (GPT) dari OpenAI telah membuat perangkat lunak speech to text menjadi lebih canggih dan efisien. Hal ini dimungkinkan karena teknologi tersebut mampu mengenali pola dalam bahasa lisan dengan menganalisis sejumlah besar sampel audio dan teks.

AI generatif dapat diintegrasikan dengan perangkat lunak speech to text untuk membuat asisten yang dapat membantu pelanggan melalui panggilan telepon, atau berinteraksi dengan aplikasi yang mendukung suara. AI generatif juga dapat mengubah teks kembali menjadi ucapan, atau dikenal sebagai text to speech, dengan suara yang terdengar realistis dan alami.

Bagaimana cara kerja speech to text?

Perangkat lunak Speech to text berisi beberapa komponen. Antara lain:

  • Input ucapan: di mana mikrofon menangkap kata-kata yang diucapkan

  • Ekstraksi fitur: di mana komputer mengidentifikasi nada dan pola yang khas dalam ucapan)

  • Decoder: di mana algoritma mencocokkan fitur ucapan dengan karakter dan kata melalui model bahasa

  • Hasil kata: di mana teks akhir diformat dengan tanda baca dan huruf besar yang benar sehingga dapat dibaca oleh manusia

Umumnya, proses speech to text terdiri dari langkah-langkah berikut:

  • Prapemrosesan audio: Setelah audio direkam, data tersebut terlebih dahulu diproses untuk meningkatkan kualitas dan memastikan akurasi dalam pengenalan suara. Proses ini mencakup penghapusan suara latar belakang dan frekuensi yang tidak relevan, penyesuaian level volume, segmentasi klip audio untuk mempermudah pemrosesan, serta konversi file audio ke format standar.

  • Analisis suara dan ekstraksi fitur: Sinyal suara sering digambarkan sebagai spektogram (tautan berada di luar ibm.com), yang merupakan representasi visual dari frekuensi dari waktu ke waktu.1 Bagian-bagian yang relevan dari rekaman audio dipecah menjadi urutan fonem, yang merupakan unit ucapan terkecil yang membedakan 1 kata dari kata lainnya. Kelas utama dari fonem adalah vokal dan konsonan (tautan berada di luar ibm.com).2 Model bahasa dan decoder dapat mencocokkan fonem dengan kata-kata dan kemudian kalimat. Model akustik berbasis pembelajaran mendalam mampu memprediksi karakter dan kata yang kemungkinan besar muncul berikutnya berdasarkan konteks ucapan.

Ada tiga metode utama untuk melakukan pengenalan suara: sinkron, asinkron, dan streaming.

  • Recognition sinkron adalah ketika ada konversi langsung speech to text. Itu hanya dapat memproses file audio yang lebih pendek dari satu menit. Ini digunakan dalam keterangan langsung untuk siaran televisi.

  • Pengenalan streaming adalah ketika audio streaming diproses secara real-time, sehingga teks yang dihasilkan mungkin muncul secara bertahap saat pengguna masih berbicara.

  • Pengenalan asinkron terjadi ketika file audio berukuran besar yang telah direkam sebelumnya dikirim untuk proses transkripsi. Mungkin diantri untuk diproses dan dikirimkan nanti.

Perusahaan seperti Google3 (tautan berada di luar ibm.com), Microsoft(seperti yang berada di luar ibm.com), Amazon(tautan berada di luar ibm.com) dan IBMmenawarkan perangkat lunak speech to text sebagai API melalui cloud, yang memungkinkannya untuk digunakan bersama dengan aplikasi, alat, dan perangkat lain.

Apple iPhone memiliki fitur dikte (link resides outside ibm.com), yang mengintegrasikan speech to text teknologi yang dimasukkan ke dalam iOS. PenggunaAndroid dapat mengunduh aplikasi seperti Gboard (link resides outside ibm.com) untuk fungsi speech to text. Beberapa perangkat piksel memungkinkan pengguna mengetik dengan suara melalui Asisten.7 Ada berbagai opsi untuk perangkat lunak speech to text sumber terbuka dan eksklusif.

Desain 3D bola yang menggelinding di lintasan

The latest AI News + Insights 


Expertly curated insights and news on AI, cloud and more in the weekly Think Newsletter. 

Evolusi sistem speech to text

Pada awal evolusinya, perangkat lunak pengenalan suara mengandalkan bank kosakata yang terbatas. Adopsi teknologi oleh berbagai industri, mulai dari otomotif hingga perawatan kesehatan, telah dipercepat berkat kemajuan dalam ilmu data, pembelajaran mendalam, dan kecerdasan buatan.

Pada tahun 1950-an, Bell Laboratories membuat pengaturan pengenalan suara pertama (tautan berada di luar ibm.com) yang disebut AUDREY yang dapat mengenali angka yang diucapkan.8 Kemudian, IBM menemukan Shoebox pada tahun 1962, yang mungkin mengenali angka dan 16 kata yang berbeda.

Selama beberapa dekade ini (tautan berada di luar ibm.com), ilmuwan komputer menemukan model pengenal fonem dan model statistik seperti Hidden Markov Models, yang tetap menjadi algoritma populer untuk pengenalan suara.9 Sekitar tahun 1970-an, sebuah program Carnegie Mellon yang disebut HARPY dari Carnegie Mellon memungkinkan komputer untuk mengenali 1.000 kata.

Pada tahun 1980-an, sistem transkripsi IBM Tangora menggunakan metode statistik untuk mengenali hingga 20.000 kata secara efektif. Teknologi ini pertama kali digunakan dalam fitur dikte berbasis suara untuk pekerja kantoran dan kini menjadi fondasi perangkat lunak modern untuk mengubah speech to text. Perangkat lunak ini terus dikembangkan dan disempurnakan hingga akhirnya dikomersialkan pada era 2000-an.

Dengan munculnya machine learning dan pembelajaran mendalam, teknologi ini menggantikan model statistik tradisional, meningkatkan akurasi pengenalan, dan memungkinkan pengembangan aplikasi yang lebih canggih. Pembelajaran mendalam dapat menangkap nuansa dan ekspresi informal dengan lebih baik. Model bahasa besar (LLM) dapat digunakan untuk menambahkan konteks, membantu mengatasi ambiguitas pilihan kata atau variasi aksen dalam pengucapan. Ketika asisten virtual dan speaker pintar muncul, mereka mampu mengintegrasikan speech to text dengan model bahasa yang besar, pemrosesan bahasa alami (NLP) dan layanan berbasis cloud lainnya.

Model pembelajaran mendalam ujung ke ujung seperti transformer sangat penting untuk model bahasa besar. Model ini dilatih menggunakan kumpulan data besar berupa pasangan audio-teks tanpa label untuk mempelajari cara mencocokkan sinyal audio dengan transkripsinya.

Selama proses pelatihan, model secara otomatis mempelajari bagaimana setiap kata terdengar dan memprediksi kata-kata yang kemungkinan besar muncul dalam suatu urutan. Model tersebut juga dapat menyimpulkan aturan tata bahasa dan struktur bahasa untuk diterapkan sendiri. Pembelajaran mendalam menyederhanakan dan mengintegrasikan berbagai langkah kompleks yang sebelumnya diperlukan dalam teknik pengubahan speech to text tradisional.

Penggunaan speech to text

Ada berbagai contoh penggunaan untuk speech to text software:

  1. Insight pusat panggilan dan bantuan agen
  2. Layanan transkripsi dan terjemahan waktu nyata
  3. Pengenalan suara
  4. Aplikasi pengetikan dan dikte suara
  5. Pemantauan konten

    Insight pusat panggilan dan bantuan agen

    Perangkat lunak speech to text dapat secara otomatis mentranskripsikan interaksi pelanggan, merutekan panggilan sesuai kebutuhan, menganalisis percakapan untuk mendapatkan insight, dan mengidentifikasi sentimen pelanggan.

    Contoh: Dalam layanan pelanggan di pusat panggilan, asisten suara berbasis AI dapat memanfaatkan teknologi pengubah speech to text untuk menangani pertanyaan sederhana dan berulang dari pelanggan, sementara permintaan yang lebih kompleks akan dialihkan ke agen manusia.

        Layanan transkripsi dan terjemahan waktu nyata

        Teknologi ini dapat menyalin transkrip dari rapat online atau webinar serta menghasilkan subtitle, teks, atau sulih suara untuk video. Teknologi ini juga dapat digunakan dengan perangkat lunak terjemahan untuk menawarkan dokumen transkripsi ke dalam berbagai bahasa. Aplikasi tujuan khusus dapat memungkinkan transkripsi untuk aplikasi perawatan kesehatan, hukum, dan pendidikan.

        Contoh: Amazon (tautan berada di luar ibm.com) Menyediakan layanan transkripsi medis berbasis teknologi speech to text untuk mentranskripsikan percakapan antara dokter dan pasien ke dalam catatan klinis, serta menyediakan subtitle untuk konsultasi telekesehatan.10

        Pengenalan suara

        Dengan bantuan pemrosesan bahasa alami, teknologi pengenalan suara dapat memahami makna dari teks yang ditranskripsi, lalu menghasilkan perintah yang dapat ditindaklanjuti dan melaksanakannya. Teknologi ini memungkinkan pengguna memberikan perintah suara untuk melakukan berbagai tugas, seperti menelepon, mencari informasi di internet, atau mengontrol perangkat rumah pintar seperti lampu, termostat, dan perangkat lain melalui chatbot atau asisten digital seperti Alexa, Cortana, Google Assistant, dan Siri.

        Contoh: Alexa dari Amazon (tautan berada di luar ibm.com) kini menggunakan teknologi speech to text dan text to speech, pengguna dapat menyalakan lampu, mengatur suhu di ruangan tertentu, atau mendapatkan rekomendasi resep berdasarkan bahan makanan yang baru saja dibeli.11

        Aplikasi pengetikan dan dikte suara

        Aplikasi ini memungkinkan penyandang disabilitas berinteraksi dengan komputer dan ponsel cerdas tanpa perlu mengetik secara manual. Mereka malah dapat mendikte pesan teks, catatan, email, dan lainnya.

        Contoh: Siswa dengan disleksia atau yang baru saja mengalami cedera pada lengan tetap dapat mengetik catatan menggunakan perintah suara di komputer Microsoft (tautan berada di luar ibm.com).12 Kemampuan ini didukung oleh layanan Azure Speech.

        Pemantauan konten

        AI dapat memindai transkrip video dan klip audio untuk mendeteksi konten yang tidak pantas, bertindak sebagai moderator dengan menandai materi yang perlu ditinjau lebih lanjut.

        Contoh: Vatis Tech (tautan berada di luar ibm.com) menyediakan alat berbasis teknologi speech to text untuk pemantauan media sosial dalam pemasaran, membantu merek mengidentifikasi kapan mereka menjadi tren serta memahami maksud di balik interaksi pelanggan.13

        Catatan kaki

        1. Dari Suara ke Gambar, Bagian 1: Penyelaman mendalam tentang pembuatan spektrogram (tautan berada di luar ibm.com), Perpustakaan Cornell Lab Macaulay, 19 Juli 2021

        2. Kuliah 12: Gambaran Umum Pengenalan Pidato (tautan berada di luar ibm.com), Ilmu Komputer Universitas Rochester

        3. Ubah ucapan menjadi teks menggunakan Google AI (tautan berada di luar ibm.com), Google Cloud

        4. Speech to text REST API (link resides outside ibm.com), Microsoft

        5. Referensi API Transkrip Amazon (tautan berada di luar ibm.com), AWS

        6. Panduan Pengguna iPhone (tautan berada di luar ibm.com), Apple

        7. Ketik dengan suara Anda (tautan berada di luar ibm.com), Dukungan Google

        8. Audrey, Alexa, Hal, dan banyak lagi (tautan berada di luar ibm.com), Museum Sejarah Komputer, 9 Juni 2021

        9. Pengenalan Pidato: Masa Lalu, Sekarang, Masa Depan (tautan berada di luar ibm.com), Ilmu Komputer Universitas Carnegie Mellon

        10. Amazon Transcribe Medical (tautan berada di luar ibm.com), AWS

        11. Alexa meluncurkan pengenalan ucapan baru, teknologi text to speech (tautan berada di luar ibm.com), Amazon, 20 September 2023

        12. Gunakan pengetikan suara untuk berbicara alih-alih mengetik di PC Anda (tautan berada di luar ibm.com), Microsoft

        13. Intelijen Pemantauan Media - Ubah Audio apa pun menjadi insight (tautan berada di luar ibm.com), Vatis Tech

        Solusi terkait

        Solusi terkait

        IBM Watson Speech to Text

        Mengubah ucapan menjadi teks menggunakan pengenalan dan transkripsi ucapan yang didukung AI

        watsonx Orchestrate

        Ciptakan asisten AI untuk Anda menggunakan Orchestrate guna menyederhanakan kerja tim dan mendapatkan kembali waktu Anda.

        Watson Speech Libraries for Embed

        Bermitra dengan IBM untuk menanamkan kemampuan bicara ke dalam solusi Anda

        Sumber daya

        Tutorial
        Percobaan
        Laporan
        Webinar

        Ambil langkah selanjutnya

        Memulai dengan cepat dengan model machine learning canggih kami atau sesuaikan untuk contoh penggunaan Anda.

        Pelajari lebih lanjut Watson Speech to Text