Apa itu pembuatan teks?

19 Maret 2024

Penyusun

Vrunda Gadesha

AI Advocate | Technical Contect Author

Eda Kavlakoglu

Program Manager

Pembuatan teks adalah proses menghasilkan teks yang koheren dan bermakna secara otomatis, yang dapat berupa kalimat, paragraf, atau bahkan seluruh dokumen. Metode ini melibatkan berbagai teknik, yang dapat ditemukan di bawah bidang ini seperti pemrosesan bahasa alami (NLP), machine learning, dan algoritma pembelajaran mendalam, untuk menganalisis data input dan menghasilkan teks seperti manusia. Tujuannya adalah untuk membuat teks yang tidak hanya benar secara tata bahasa, tetapi juga sesuai dengan konteks dan menarik bagi audiens yang dituju.

Sejarah pembuatan teks dapat ditelusuri kembali ke penelitian ilmu komputer awal pada 1950-an dan 1960-an. Namun, bidang ini benar-benar berkembang pada tahun 1980-an dan 1990-an dengan munculnya kecerdasan buatan dan munculnya algoritma machine learning. Dalam beberapa tahun terakhir, kemajuan dalam pembelajaran mendalam dan neural networks telah menghasilkan peningkatan yang signifikan dalam kualitas dan keragaman teks yang dihasilkan.1

Perbedaan antara natural language understanding (NLU) dan pembuatan bahasa alami (NLG)

Pembuatan bahasa alami (NLG) dan natural language understanding (NLU) adalah 2 komponen penting dari sistem pemrosesan bahasa alami (NLP) yang tangguh, tetapi keduanya memiliki tujuan yang berbeda.

Natural language understanding (NLU) adalah kemampuan mesin untuk memahami, menafsirkan, dan mengekstrak informasi yang bermakna dari bahasa manusia dengan cara yang bernilai. Ini melibatkan tugas-tugas seperti analisis sentimen, named entity recognition, penandaan dan penguraian bagian ucapan. NLU membantu mesin memahami konteks, maksud, dan makna semantik dari input bahasa manusia.

Natural language generation atau pembuatan bahasa alami (NLG) adalah kemampuan mesin untuk menghasilkan teks atau ucapan seperti manusia yang jelas, ringkas, dan menarik. Ini melibatkan tugas-tugas seperti ringkasan teks, penuturan kisah, sistem dialog, dan sintesis ucapan. NLG membantu mesin menghasilkan respons yang bermakna dan koheren dengan cara yang mudah dipahami oleh manusia.

NLU berfokus pada pemahaman bahasa manusia, sementara NLG berfokus pada menghasilkan bahasa mirip manusia. Keduanya sangat penting untuk membangun aplikasi NLP tingkat lanjut yang dapat secara efektif berkomunikasi dengan manusia dengan cara yang alami dan bermakna.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Manfaat pembuatan teks

  • Efisiensi yang lebih baik: Pembuatan teks dapat mengurangi signifikan waktu dan usaha yang diperlukan untuk membuat teks dalam jumlah besar. Misalnya, dapat digunakan untuk mengotomatiskan pembuatan deskripsi produk, postingan media sosial, atau dokumentasi teknis. Solusi ini tidak hanya menghemat waktu tetapi juga memungkinkan tim untuk fokus pada tugas yang lebih strategis.2

  • Meningkatkan kreativitas: Kecerdasan buatan dapat menghasilkan konten yang unik dan orisinal dengan kecepatan tinggi, yang mungkin tidak mungkin dihasilkan oleh manusia secara manual. Hal ini dapat menghasilkan konten yang lebih inovatif dan menarik, seperti cerita, puisi, atau catatan musik. Juga, pembuatan teks dapat membantu mengatasi hambatan penulis dengan memberikan ide dan perspektif baru.

  • Peningkatan aksesibilitas: Pembuatan teks dapat membantu individu penyandang disabilitas atau kendala bahasa dengan membuat teks dalam format atau bahasa alternatif. Ini dapat membantu membuat informasi lebih mudah diakses oleh lebih banyak orang, termasuk mereka yang tuli atau sulit mendengar, penutur non-pribumi, atau tunanetra.

  • Interaksi pelanggan yang lebih baik: Pembuatan teks yang dipersonalisasi dan disesuaikan dapat membantu bisnis dan organisasi untuk berinteraksi lebih baik dengan pelanggan mereka. Dengan menyesuaikan konten dengan preferensi dan perilaku individu, perusahaan dapat menciptakan interaksi yang lebih bermakna dan relevan, yang mengarah pada peningkatan kepuasan dan loyalitas pelanggan.

  • Pembelajaran bahasa yang ditingkatkan: Pembuatan teks dapat menjadi alat yang berguna bagi pemelajar bahasa dengan memberikan masukan dan saran untuk perbaikan. Dengan menghasilkan teks dalam gaya bahasa atau genre tertentu, pemelajar dapat melatih dan mengembangkan keterampilan menulis mereka dengan cara yang lebih terstruktur dan terarah.

Mixture of Experts | Podcast

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tantangan teknik pembuatan teks

Dalam teknik pembuatan teks, ada beberapa tantangan yang muncul yang perlu diatasi agar metode ini dapat mencapai potensi penuhnya. Tantangan-tantangan ini termasuk memastikan kualitas teks yang dihasilkan, mempromosikan keberagaman dalam hasil yang didapatkan dan menangani pertimbangan etika dan masalah privasi.

  • Kualitas: Salah satu tantangan paling signifikan dalam pembuatan teks adalah memastikan kualitas teks yang dihasilkan. Teks yang dihasilkan harus koheren, bermakna, dan sesuai secara kontekstual. Ini juga harus secara akurat mencerminkan makna yang dimaksudkan dan menghindari menghasilkan informasi yang menyesatkan atau salah.

  • Keragaman: Tantangan kedua dalam pembuatan teks adalah mempromosikan keberagaman dalam output yang dihasilkan. Meskipun teks yang dihasilkan harus akurat dan konsisten, teks tersebut juga harus mencerminkan berbagai perspektif, gaya, dan suara. Tantangan ini sangat relevan dalam aplikasi seperti pemrosesan bahasa alami, di mana tujuannya adalah untuk membuat teks yang tidak hanya akurat tetapi juga menarik dan mudah dibaca.

  • Etika dan privasi: Tantangan ketiga dalam pembuatan teks adalah menangani pertimbangan etika dan masalah privasi. Seiring dengan kian canggihnya teknik pembuatan teks, ada risiko bahwa teknik tersebut dapat digunakan untuk menghasilkan teks yang menyesatkan atau berbahaya atau untuk melanggar privasi seseorang.

Tantangan teknik pembuatan teks sangat signifikan dan membutuhkan pertimbangan dan perhatian yang cermat. Tantangan-tantangan ini diatasi dengan teknik-teknik canggih seperti model statistik, neural networks, dan model berbasis transformator. Model-model ini dapat diadopsi dengan API, skrip Python sumber terbuka. Menyempurnakan model-model ini akan memberikan teks berkualitas tinggi, beragam, benar secara logis, dan sehat secara etis. Bersamaan dengan itu, penting untuk memastikan bahwa teknik pembuatan teks, bersama dengan AI generatif, digunakan secara bertanggung jawab dan efektif, dan untuk memaksimalkan manfaat dan meminimalkan resikonya.3

Teknik pembuatan teks

  • Model statistik: Model-model ini biasanya menggunakan kumpulan data teks yang besar untuk mempelajari pola dan struktur bahasa manusia, lalu menggunakan pengetahuan ini untuk menghasilkan teks baru. Model statistik bisa efektif dalam menghasilkan teks yang mirip dengan data pelatihan, tetapi model ini sulit menghasilkan teks yang kreatif dan beragam. Model N-gram dan bidang acak bersyarat (CRF) adalah model statistik yang populer.

    • Model N-gram: Ini adalah jenis model statistik yang menggunakan model bahasa n-gram, yang memprediksi probabilitas urutan "n-item" dalam konteks tertentu.10

    • Bidang acak bersyarat (Conditional random fields atau CRF): Ini adalah jenis model statistik yang menggunakan model grafis probabilistik untuk memodelkan ketergantungan antara kata-kata dalam kalimat. CRF dapat efektif dalam menghasilkan teks yang koheren dan sesuai dengan konteksnya, tetapi jenis model pembuatan teks ini bisa jadi mahal secara komputasi untuk dilatih dan mungkin tidak bekerja dengan baik pada tugas-tugas yang membutuhkan tingkat pembuatan bahasa yang kreatif.11

  • Neural networks: Ini adalah algoritma machine learning yang menggunakan neural networks untuk mengidentifikasi pola data. Melalui API, pengembang dapat memanfaatkan model yang telah dilatih untuk menghasilkan teks yang kreatif dan beragam, yang sangat mirip dengan kompleksitas data pelatihan. Kualitas teks yang dihasilkan sangat bergantung pada data pelatihan. Namun, jaringan ini membutuhkan sumber daya komputasi yang signifikan dan data yang luas untuk kinerja yang optimal.4

    • Neural networks berulang (Recurrent neural networks atau RNN): Ini adalah jenis neural networks dasar yang dioptimalkan untuk memproses data berurutan, seperti urutan kata dalam kalimat atau paragraf. Jenis ini unggul dalam tugas-tugas yang membutuhkan pemahaman urutan, sehingga berguna pada tahap awal pengembangan model bahasa besar (LLM). Namun, RNN menghadapi tantangan dengan ketergantungan jangka panjang pada teks yang diperluas, sebuah keterbatasan yang berasal dari sifat pemrosesan sekuensial. Ketika informasi berkembang melalui jaringan, pengaruh input awal berkurang, yang mengarah pada masalah "vanishing gradient" selama backpropagation, di mana pembaruan menyusut dan menghalangi kemampuan model untuk mempertahankan koneksi berurutan. Menggabungkan teknik-teknik dari pembelajaran penguatan dapat menawarkan strategi untuk mengurangi masalah-masalah ini, memberikan paradigma pembelajaran alternatif untuk memperkuat memori urutan dan proses pengambilan keputusan dalam jaringan ini.5

    • Jaringan memori jangka pendek (Long short-term memory networks atau LSTM): Ini adalah jenis neural networks yang menggunakan sel memori untuk menyimpan dan mengakses informasi dalam jangka waktu yang lama. LSTM dapat efektif dalam menangani dependensi jangka panjang, seperti hubungan antara kalimat dalam dokumen, dan dapat menghasilkan teks yang koheren dan sesuai secara kontekstual.6

  • Model berbasis transformator: Model ini adalah jenis neural networks yang menggunakan mekanisme perhatian-diri untuk memproses data sekuensial. Model berbasis transformator dapat efektif dalam menghasilkan teks yang kreatif dan beragam, karena model tersebut dapat mempelajari pola dan struktur yang kompleks dalam data pelatihan dan menghasilkan teks baru yang mirip dengan data pelatihan. Tidak seperti pendekatan historis seperti RNN dan LSTM, model berbasis transformator memiliki keunggulan berbeda dalam memproses data secara paralel, daripada secara berurutan. Hal ini memungkinkan penanganan dependensi jangka panjang yang lebih efisien di seluruh kumpulan data besar, menjadikan model ini sangat kuat untuk aplikasi pemrosesan bahasa alami seperti terjemahan mesin dan peringkasan teks.7

    • Generative pretrained transformer (GPT): GPT adalah model berbasis transformer yang dilatih pada kumpulan data teks yang besar untuk menghasilkan teks yang mirip dengan manusia. GPT dapat efektif dalam menghasilkan teks yang kreatif dan beragam, karena dapat mempelajari pola dan struktur yang kompleks dalam data pelatihan dan menghasilkan teks baru yang mirip dengan data pelatihan.8

    • Representasi encoder dua arah dari transformer (BERT): BERT adalah model berbasis transformer yang dilatih pada kumpulan data teks yang besar untuk menghasilkan representasi dua arah dari kata-kata. Itu berarti mengevaluasi konteks kata-kata dari sebelum dan sesudah kalimat. Kesadaran konteks yang komprehensif ini memungkinkan BERT untuk mencapai pemahaman nuansa bahasa yang bernuansa, sehingga menghasilkan teks yang sangat akurat dan koheren. Pendekatan dua arah ini merupakan perbedaan utama yang meningkatkan kinerja BERT dalam aplikasi yang membutuhkan pemahaman bahasa yang mendalam, seperti menjawab pertanyaan dan named entity recognition (NER), dengan menyediakan konteks yang lebih lengkap dibandingkan dengan model searah.9

Dengan demikian, teknik pembuatan teks, terutama yang diimplementasikan dalam Python, telah merevolusi cara kita mendekati AI generatif dalam bahasa Inggris dan seterusnya. Dengan menggunakan model terlatih dari platform seperti Hugging Face, pengembang dan ilmuwan data dapat mengakses sejumlah besar alat dan sumber daya sumber terbuka yang memfasilitasi pembuatan aplikasi pembuatan teks yang canggih. Python, yang berada di garis depan AI dan ilmu data, menawarkan pustaka yang menyederhanakan interaksi dengan model-model ini, memungkinkan penyesuaian melalui penyesuaian awalan atau templat, dan manipulasi data teks untuk berbagai aplikasi. Selain itu, penggunaan metrik dan tolok ukur untuk mengevaluasi kinerja model, bersama dengan strategi penguraian kode tingkat lanjut, memastikan bahwa teks yang dihasilkan memenuhi standar koherensi dan relevansi yang tinggi.

Contoh pembuatan teks

Pembuatan teks adalah alat serbaguna yang memiliki berbagai aplikasi di berbagai domain. Berikut adalah beberapa contoh aplikasi pembuatan teks:

Postingan blog dan artikel:

Ini dapat digunakan untuk secara otomatis menghasilkan postingan blog dan artikel untuk situs web dan blog. Sistem ini dapat secara otomatis menghasilkan konten yang unik dan menarik yang disesuaikan dengan minat dan preferensi pembaca.

Artikel dan laporan berita:

Ini dapat digunakan untuk secara otomatis menghasilkan artikel berita dan laporan untuk surat kabar, majalah dan outlet media lainnya. Sistem ini dapat secara otomatis menghasilkan konten yang tepat waktu dan akurat yang disesuaikan dengan minat dan preferensi pembaca.

Postingan media sosial:

Ini dapat digunakan untuk secara otomatis menghasilkan postingan media sosial untuk Facebook, Twitter dan platform lainnya. Sistem ini dapat secara otomatis menghasilkan konten yang menarik dan informatif yang disesuaikan dengan minat dan preferensi pembaca.

Deskripsi dan ulasan produk:

Ini dapat digunakan untuk secara otomatis membuat deskripsi dan ulasan produk untuk situs web e-commerce dan pasar online. Sistem ini dapat secara otomatis menghasilkan konten terperinci dan akurat yang disesuaikan dengan minat dan preferensi pembaca.

Penulisan kreatif:

Ini dapat digunakan untuk secara otomatis menghasilkan petunjuk penulisan kreatif untuk penulis dengan model AI yang kuat. Sistem ini secara otomatis dapat menghasilkan ide-ide unik dan inspiratif yang disesuaikan dengan minat dan preferensi penulis.

Terjemahan bahasa:

Ini dapat digunakan untuk menerjemahkan teks secara otomatis antara bahasa yang berbeda. Sistem ini dapat secara otomatis menghasilkan terjemahan yang akurat dan natural yang disesuaikan dengan minat dan preferensi pembaca.

Percakapan chatbot:

Ini dapat digunakan untuk secara otomatis menghasilkan percakapan chatbot untuk layanan pelanggan dan dukungan. Sistem ini dapat secara otomatis menghasilkan percakapan yang dipersonalisasi dan menarik yang disesuaikan dengan minat dan preferensi pembaca.

Ringkasan teks:

Sistem ini meringkas dokumen panjang menjadi versi ringkas, mempertahankan informasi penting melalui pemrosesan bahasa alami dan algoritma pembelajaran mesin yang canggih. Teknologi ini memungkinkan pemahaman cepat terhadap konten yang luas, mulai dari artikel berita hingga penelitian akademis, sehingga meningkatkan aksesibilitas dan efisiensi informasi.

Interaksi asisten virtual:

Pembuatan teks dapat digunakan untuk secara otomatis menghasilkan interaksi asisten virtual untuk otomatisasi rumah dan bantuan pribadi. Sistem ini dapat secara otomatis menghasilkan interaksi yang dipersonalisasi dan nyaman yang disesuaikan dengan minat dan preferensi pembaca.

Pembuatan penceritaan dan narasi:

Pembuatan teks dapat digunakan untuk menghasilkan cerita dan narasi secara otomatis untuk tujuan hiburan dan pendidikan. Sistem ini dapat secara otomatis menghasilkan cerita yang unik dan menarik yang disesuaikan dengan minat dan preferensi pembaca.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

Lin, Z., Gong, Y., Shen, Y., Wu, T., Fan, Z., Lin, C., ... & Chen, W. (2023, Juli). Pembuatan teks dengan model bahasa difusi: Pendekatan pra-pelatihan dengan denoise paragraf berkelanjutan. Dalam Konferensi Internasional Pembelajaran Mesin (hlm. 21051-21064). PMLR.

Prabhumoye, S., Black, A., & Salakhutdinov, R. (2020). Exploring Controllable Text Generation Techniques. , 1-14. https://doi.org/10.18653/V1/2020.COLING-MAIN.1.

Yu, W., Yu, W., Zhu, C., Li, Z., Hu, Z., Wang, Q., Ji, H., & Jiang, M. (2020). Survei tentang Pembuatan Teks dengan Pengetahuan yang Ditingkatkan. ACM Computing Surveys, 54, 1 - 38. https://doi.org/10.1145/3512467.

Zhang, Y. (2020). Deep Learning Approaches to Text Production. Computational Linguistics, 46, 899-903. https://doi.org/10.1162/coli_r_00389.

Su, Y., Lan, T., Wang, Y., Yogatama, D., Kong, L., & Collier, N. (2022). A Contrastive Framework for Neural Text Generation. ArXiv, abs/2202.06417.

6 S. Chandar, M. M. Khapra, H. Larochelle dan B. Ravindran, "Correlational Neural Networks," dalam Neural Computation, vol. 28, no. 2, hlm. 257-285, Februari 2016, doi: 10.1162/NECO_a_00801.

Rahali, A., & Akhloufi, M. A. (2023). End-to-end transformer-based models in textual-based NLP. AI4(1), 54-110.

8 Khalil, F., & Pipa, G. (2021). Transforming the generative pretrained transformer into augmented business text writer. Jurnal Big Data, 9, 1-21. https://doi.org/10.1186/s40537-022-00663-7.

9 Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. , 4171-4186. https://doi.org/10.18653/v1/N19-1423.

10 M. Suzuki, N. Itoh, T. Nagano, G. Kurata, dan S. Thomas, "Improvements to N-gram Language Model Using Text Generated from Neural Language Model," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 2019, hlm. 7245-7249, doi: 10.1109/ICASSP.2019.8683481.

11 D. Song, W. Liu, T. Zhou, D. Tao, dan D. A. Meyer, "Efficient robust conditional random fields," dalam IEEE Transactions on Image Processing, vol. 24, no. 10, hlm. 3124-3136, Okt. 2015, doi: 10.1109/TIP.2015.2438553.