Apa itu text to speech atau teks ke suara?

2 Desember 2024

Penyusun

Charlotte Hu

IBM Content Contributor

Amanda Downie

Inbound Content Lead, AI Productivity & IBM Consulting

Text to speech (TTS) adalah jenis teknologi yang mengubah teks pada antarmuka digital menjadi audio yang terdengar alami. Ini juga dapat disebut sebagai teknologi "teks yang dibacakan", ucapan yang dihasilkan komputer atau sintesis ucapan. Sebagian besar perusahaan menawarkan teknologi text to speech sebagai antarmuka pemrograman aplikasi (API).

Pada awalnya, sistem TTS dikembangkan sebagai teknologi bantuan yang dapat membuat layanan tertentu lebih mudah diakses oleh pengguna dengan gangguan penglihatan dan ketidakmampuan belajar seperti disleksia. Sekarang, generator suara yang didukung kecerdasan buatan memungkinkan perangkat lunak text to speech untuk meniru ucapan manusia dengan lebih baik. Membuka gelombang contoh penggunaan baru seperti menjawab panggilan layanan pelanggan, podcast yang dihasilkan AI, sulih suara, dan narasi buku audio.

Evolusi text to speech

Alat perekam suara elektrik pertama muncul sekitar tahun 1930-an1. Mesin-mesin pada awal kemunculan sangat terbatas dan rumit untuk dioperasikan.

Seiring dengan hadirnya komputer, para pemrogram mulai pada akhir 1950-an bekerja pada algoritme yang dapat mengakses basis data file audio yang besar sebagai sumber suaranya. Algoritma ini mungkin menemukan kecocokan suara untuk unit teks dan menyatukan elemen ucapan. Sejak awal, suara yang dihasilkan terdengar robotik. Karena pekerjaan pemodelan mencirikan bahasa dengan lebih baik, algoritma untuk mengubah teks menjadi text to speech meningkat.

Ketika teknik pembelajaran mendalam dan neural networks muncul pada tahun 2000-an, programmer mulai memodelkan bentuk gelombang secara langsung dengan rekaman ucapan, yang mengarah pada suara berkualitas tinggi yang terdengar lebih realistis. Secara paralel, ilmuwan komputer menyempurnakan perangkat lunak pengenalan suara dan pemrosesan bahasa alami. Pengembangan AI percakapan bergantung pada penggabungan speech to text dengan teknologi text to speech.

Meskipun AI dan machine learning membuatnya lebih mudah untuk menghasilkan ucapan yang terdengar alami, mereka membuka area kontroversi baru, seperti deepfake. Perusahaan teknologi sedang berupaya mengembangkan sistem analisis suara real-time untuk deteksi deepfake audio.

Perempuan kulit hitam yang bekerja di laptop

Tetap terdepan dengan berita teknologi terbaru

Dapatkan insight mingguan, penelitian, dan pandangan pakar tentang AI, keamanan, cloud, dan lainnya di Buletin Think.

Bagaimana cara kerja text to speech?

Teknik pembelajaran mendalam memungkinkan model sintesis suara untuk mengurai lebih banyak data dan lebih memahami hubungan antara kata-kata dan fitur akustiknya. Semua ini membuat suara AI terdengar lebih alami. Mengubah text to speech adalah proses multi-langkah yang melibatkan analisis linguistik dan sintesis ucapan.

Komponen utama dari text to speech adalah:

  • Analisis linguistik

  • Sintesis ucapan

Analisis linguistik

Jaringan neural networks dalam model diberikan kumpulan data audio dan transkripsi yang sesuai dalam bahasa Inggris dan terkadang bahasa lainnya. Hal ini membantu sistem memahami bagaimana kata-kata cocok dengan ucapan serta aksen, tekanan, volume, nada, ritme, dan lainnya. Setelah menerima input, model text to speech menganalisis kata-kata, tanda baca, dan struktur kalimat. Aplikasi ini dapat memperluas singkatan dan ekspresi, menghitung durasi kata, menemukan pengucapan yang cocok, dan merencanakan prosodi frasa dan kalimat.

Sintesis ucapan

Setelah teks dianalisis, model selanjutnya menggunakan proses dua langkah untuk mengubahnya menjadi output suara.

  • Langkah 1: Model mengubah teks menjadi fitur yang selaras dengan waktu, seperti spektogram, yang digunakan untuk memetakan variasi frekuensi dari waktu ke waktu. Hal ini menangkap karakteristik yang detail dalam ucapan dan faktor-faktor dalam pengucapan, tekanan, dan pengaturan waktu kata-kata yang bergantung pada konteks.

  • Langkah 2: Jaringan encoder (vocoder) dapat mengubah fitur-fitur yang diselaraskan dengan waktu menjadi bentuk gelombang audio, yang dapat dikonversi oleh komputer menjadi ucapan yang terdengar alami. Model text to speech tertentu memungkinkan pengguna untuk mengubah volume, nada, kecepatan, dan memilih di antara berbagai bahasa, aksen, dan gaya berbicara.

Banyak perangkat seperti smartphone memiliki sistem text to speech bawaan. Text to speech juga tersedia sebagai program perangkat lunak, ekstensi browser, alat berbasis web, atau aplikasi yang dapat diunduh.

Mixture of Experts | Podcast

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Penggunaan text to speech

Teknologi text to speech awalnya dikembangkan sebagai cara untuk meningkatkan aksesibilitas bagi berbagai pengguna dan memungkinkan orang-orang dengan gangguan penglihatan atau ketidakmampuan membaca untuk berinteraksi dengan teks melalui komputer dan perangkat lain. Stephen Hawkings, misalnya, menggunakan versi teknologi text to speech.

Text to speech telah berevolusi ke berbagai contoh penggunaan yang lebih luas, terutama kasus-kasus di mana membaca tidak praktis atau waktu operator manusia dapat dipangkas. Berikut adalah beberapa aplikasi utama untuk teknologi ini.

  • Konten audio

  • Pendidikan

  • Chatbots dan asisten virtual

  • Navigasi

  • Komunikasi multibahasa dan pembelajaran bahasa

  • Media dan hiburan

  • Pelayanan Kesehatan

Konten audio

Perangkat lunak text to speech dapat membacakan teks digital, buku, pelajaran, panduan, instruksi, dan lainnya untuk membantu e-learning dan pelatihan online. Organisasi berita juga dapat menggunakan teknologi ini untuk mengubah artikel mereka menjadi format audio.

Pendidikan

Fitur text to speech dapat membantu siswa memperhatikan dan membaca teks tertulis, sehingga mereka dapat mengasosiasikan kata-kata dengan pengucapannya. Hal ini juga dapat meningkatkan pemahaman dan keterlibatan membaca karena siswa terpapar dengan struktur tata bahasa atau kosakata baru. Ini juga dapat membantu mereka yang mengalami kesulitan visual atau ketidakmampuan belajar seperti disleksia. Text to speech juga dapat membacakan karya tulis yang dibuat oleh siswa untuk membantu mereka dalam mengoreksi tugas esai.

Chatbots dan asisten virtual

Asisten virtual seperti Siri Apple atau Cortana Microsoft memasangkan text to speech dengan speech to text untuk memahami permintaan pengguna dan berinteraksi dengan mereka dengan cara percakapan alami. Mereka juga dapat menyiarkan pemberitahuan, dan membaca teks saat pengguna mengemudi, misalnya.

Dalam pengaturan perusahaan, sistem TTS dapat meningkatkan kualitas pengalaman pengguna dengan membuat layanan pelanggan terasa lebih interaktif dan alami. Sistem TTS dapat menjawab panggilan, menyajikan opsi dan merespons pengguna. Mereka adalah bagian penting dari sistem telepon otomatis.

Navigasi

Kemampuan text to speech adalah kemampuan yang memungkinkan GPS dan aplikasi pemetaan lainnya untuk menyampaikan petunjuk arah kepada pengemudi secara real-time. Sebelum text to speech, perangkat navigasi mengandalkan suara yang telah direkam sebelumnya dan perintah yang telah ditetapkan seperti belok kiri atau belok kanan. Dengan text to speech, instruksi mengemudi menjadi lebih personal. Misalnya, GPS dapat mengatakan jalan yang tepat di mana Anda harus belok kiri.

Komunikasi multibahasa dan pembelajaran bahasa

Text to speech dapat membantu pengguna berkomunikasi dalam berbagai bahasa, misalnya, melalui aplikasi seperti Google Terjemahan. Jenis fitur aplikasi ini dapat menerjemahkan audio dari satu bahasa ke bahasa lain, yang dapat digunakan untuk menyulihsuarakan konten video. Hal ini dapat membantu menghadapkan pembelajar bahasa pada ucapan alami, yang dapat membantu mereka memahami bagaimana kata-kata yang berbeda diucapkan.

Media dan hiburan

Seiring kemajuan teknologi TTS, dapat digunakan untuk menghemat biaya dalam produksi media. Sebagai contoh, teknologi ini dapat menghasilkan komentar dan narasi dalam video game serta sulih suara untuk karakter. Beberapa studio bekerja dengan aktor suara manusia untuk membantu meningkatkan kinerja suara AI mereka.

Pelayanan Kesehatan

Organisasi perawatan kesehatan menggunakan teknologi text to speech untuk berkomunikasi dengan pasien dengan cara yang mudah diakses. Ini termasuk menambahkan versi audio konten dan literatur yang diposting di halaman web atau media sosial mereka. Beberapa institusi juga akan menambahkan instruksi yang dipandu audio tentang cara menggunakan perangkat medis tertentu. Antarmuka suara yang didukung AI generatif juga dapat membantu mengingatkan pasien tentang janji temu yang akan datang melalui panggilan, atau memberi tahu mereka tentang berita atau pembaruan pada bagan mereka. Hal ini dapat menjadi sangat penting bagi pasien dengan gangguan penglihatan, masalah bicara, keterbatasan mobilitas, dan ketidakmampuan belajar.

Catatan kaki

Text-to-Speech Technology (Speech Synthesis), American National Standards Institute, 7 Desember 2015

Solusi terkait
IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate
Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate Jelajahi solusi NLP