Text to speech (TTS) adalah jenis teknologi yang mengubah teks pada antarmuka digital menjadi audio yang terdengar alami. Ini juga dapat disebut sebagai teknologi "teks yang dibacakan", ucapan yang dihasilkan komputer atau sintesis ucapan. Sebagian besar perusahaan menawarkan teknologi text to speech sebagai antarmuka pemrograman aplikasi (API).
Pada awalnya, sistem TTS dikembangkan sebagai teknologi bantuan yang dapat membuat layanan tertentu lebih mudah diakses oleh pengguna dengan gangguan penglihatan dan ketidakmampuan belajar seperti disleksia. Sekarang, generator suara yang didukung kecerdasan buatan memungkinkan perangkat lunak text to speech untuk meniru ucapan manusia dengan lebih baik. Membuka gelombang contoh penggunaan baru seperti menjawab panggilan layanan pelanggan, podcast yang dihasilkan AI, sulih suara, dan narasi buku audio.
Alat perekam suara elektrik pertama muncul sekitar tahun 1930-an1. Mesin-mesin pada awal kemunculan sangat terbatas dan rumit untuk dioperasikan.
Seiring dengan hadirnya komputer, para pemrogram mulai pada akhir 1950-an bekerja pada algoritme yang dapat mengakses basis data file audio yang besar sebagai sumber suaranya. Algoritma ini mungkin menemukan kecocokan suara untuk unit teks dan menyatukan elemen ucapan. Sejak awal, suara yang dihasilkan terdengar robotik. Karena pekerjaan pemodelan mencirikan bahasa dengan lebih baik, algoritma untuk mengubah teks menjadi text to speech meningkat.
Ketika teknik pembelajaran mendalam dan neural networks muncul pada tahun 2000-an, programmer mulai memodelkan bentuk gelombang secara langsung dengan rekaman ucapan, yang mengarah pada suara berkualitas tinggi yang terdengar lebih realistis. Secara paralel, ilmuwan komputer menyempurnakan perangkat lunak pengenalan suara dan pemrosesan bahasa alami. Pengembangan AI percakapan bergantung pada penggabungan speech to text dengan teknologi text to speech.
Meskipun AI dan machine learning membuatnya lebih mudah untuk menghasilkan ucapan yang terdengar alami, mereka membuka area kontroversi baru, seperti deepfake. Perusahaan teknologi sedang berupaya mengembangkan sistem analisis suara real-time untuk deteksi deepfake audio.
Teknik pembelajaran mendalam memungkinkan model sintesis suara untuk mengurai lebih banyak data dan lebih memahami hubungan antara kata-kata dan fitur akustiknya. Semua ini membuat suara AI terdengar lebih alami. Mengubah text to speech adalah proses multi-langkah yang melibatkan analisis linguistik dan sintesis ucapan.
Komponen utama dari text to speech adalah:
Analisis linguistik
Sintesis ucapan
Jaringan neural networks dalam model diberikan kumpulan data audio dan transkripsi yang sesuai dalam bahasa Inggris dan terkadang bahasa lainnya. Hal ini membantu sistem memahami bagaimana kata-kata cocok dengan ucapan serta aksen, tekanan, volume, nada, ritme, dan lainnya. Setelah menerima input, model text to speech menganalisis kata-kata, tanda baca, dan struktur kalimat. Aplikasi ini dapat memperluas singkatan dan ekspresi, menghitung durasi kata, menemukan pengucapan yang cocok, dan merencanakan prosodi frasa dan kalimat.
Setelah teks dianalisis, model selanjutnya menggunakan proses dua langkah untuk mengubahnya menjadi output suara.
Langkah 1: Model mengubah teks menjadi fitur yang selaras dengan waktu, seperti spektogram, yang digunakan untuk memetakan variasi frekuensi dari waktu ke waktu. Hal ini menangkap karakteristik yang detail dalam ucapan dan faktor-faktor dalam pengucapan, tekanan, dan pengaturan waktu kata-kata yang bergantung pada konteks.
Langkah 2: Jaringan encoder (vocoder) dapat mengubah fitur-fitur yang diselaraskan dengan waktu menjadi bentuk gelombang audio, yang dapat dikonversi oleh komputer menjadi ucapan yang terdengar alami. Model text to speech tertentu memungkinkan pengguna untuk mengubah volume, nada, kecepatan, dan memilih di antara berbagai bahasa, aksen, dan gaya berbicara.
Banyak perangkat seperti smartphone memiliki sistem text to speech bawaan. Text to speech juga tersedia sebagai program perangkat lunak, ekstensi browser, alat berbasis web, atau aplikasi yang dapat diunduh.
Teknologi text to speech awalnya dikembangkan sebagai cara untuk meningkatkan aksesibilitas bagi berbagai pengguna dan memungkinkan orang-orang dengan gangguan penglihatan atau ketidakmampuan membaca untuk berinteraksi dengan teks melalui komputer dan perangkat lain. Stephen Hawkings, misalnya, menggunakan versi teknologi text to speech.
Text to speech telah berevolusi ke berbagai contoh penggunaan yang lebih luas, terutama kasus-kasus di mana membaca tidak praktis atau waktu operator manusia dapat dipangkas. Berikut adalah beberapa aplikasi utama untuk teknologi ini.
Konten audio
Pendidikan
Chatbots dan asisten virtual
Navigasi
Komunikasi multibahasa dan pembelajaran bahasa
Media dan hiburan
Pelayanan Kesehatan
Perangkat lunak text to speech dapat membacakan teks digital, buku, pelajaran, panduan, instruksi, dan lainnya untuk membantu e-learning dan pelatihan online. Organisasi berita juga dapat menggunakan teknologi ini untuk mengubah artikel mereka menjadi format audio.
Fitur text to speech dapat membantu siswa memperhatikan dan membaca teks tertulis, sehingga mereka dapat mengasosiasikan kata-kata dengan pengucapannya. Hal ini juga dapat meningkatkan pemahaman dan keterlibatan membaca karena siswa terpapar dengan struktur tata bahasa atau kosakata baru. Ini juga dapat membantu mereka yang mengalami kesulitan visual atau ketidakmampuan belajar seperti disleksia. Text to speech juga dapat membacakan karya tulis yang dibuat oleh siswa untuk membantu mereka dalam mengoreksi tugas esai.
Asisten virtual seperti Siri Apple atau Cortana Microsoft memasangkan text to speech dengan speech to text untuk memahami permintaan pengguna dan berinteraksi dengan mereka dengan cara percakapan alami. Mereka juga dapat menyiarkan pemberitahuan, dan membaca teks saat pengguna mengemudi, misalnya.
Dalam pengaturan perusahaan, sistem TTS dapat meningkatkan kualitas pengalaman pengguna dengan membuat layanan pelanggan terasa lebih interaktif dan alami. Sistem TTS dapat menjawab panggilan, menyajikan opsi dan merespons pengguna. Mereka adalah bagian penting dari sistem telepon otomatis.
Kemampuan text to speech adalah kemampuan yang memungkinkan GPS dan aplikasi pemetaan lainnya untuk menyampaikan petunjuk arah kepada pengemudi secara real-time. Sebelum text to speech, perangkat navigasi mengandalkan suara yang telah direkam sebelumnya dan perintah yang telah ditetapkan seperti belok kiri atau belok kanan. Dengan text to speech, instruksi mengemudi menjadi lebih personal. Misalnya, GPS dapat mengatakan jalan yang tepat di mana Anda harus belok kiri.
Text to speech dapat membantu pengguna berkomunikasi dalam berbagai bahasa, misalnya, melalui aplikasi seperti Google Terjemahan. Jenis fitur aplikasi ini dapat menerjemahkan audio dari satu bahasa ke bahasa lain, yang dapat digunakan untuk menyulihsuarakan konten video. Hal ini dapat membantu menghadapkan pembelajar bahasa pada ucapan alami, yang dapat membantu mereka memahami bagaimana kata-kata yang berbeda diucapkan.
Seiring kemajuan teknologi TTS, dapat digunakan untuk menghemat biaya dalam produksi media. Sebagai contoh, teknologi ini dapat menghasilkan komentar dan narasi dalam video game serta sulih suara untuk karakter. Beberapa studio bekerja dengan aktor suara manusia untuk membantu meningkatkan kinerja suara AI mereka.
Organisasi perawatan kesehatan menggunakan teknologi text to speech untuk berkomunikasi dengan pasien dengan cara yang mudah diakses. Ini termasuk menambahkan versi audio konten dan literatur yang diposting di halaman web atau media sosial mereka. Beberapa institusi juga akan menambahkan instruksi yang dipandu audio tentang cara menggunakan perangkat medis tertentu. Antarmuka suara yang didukung AI generatif juga dapat membantu mengingatkan pasien tentang janji temu yang akan datang melalui panggilan, atau memberi tahu mereka tentang berita atau pembaruan pada bagan mereka. Hal ini dapat menjadi sangat penting bagi pasien dengan gangguan penglihatan, masalah bicara, keterbatasan mobilitas, dan ketidakmampuan belajar.
1 Text-to-Speech Technology (Speech Synthesis), American National Standards Institute, 7 Desember 2015
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Temukan bagaimana pemrosesan bahasa alami dapat membantu Anda berkomunikasi lebih alami dengan komputer.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.
Jelajahi situs web IBM Developer untuk mengakses blog, artikel, buletin, dan mempelajari lebih lanjut tentang AI yang dapat disematkan IBM.
Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.
Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.
Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.