Apa itu Large Language Models (LLM)?

Apa itu LLM?

Large language models (LLM) adalah kategori model dasar yang dilatih dengan data dalam jumlah yang sangat besar, sehingga mampu memahami dan menghasilkan bahasa alami dan jenis konten lainnya untuk melakukan berbagai tugas.

LLM telah menjadi nama yang terkenal berkat peran yang mereka mainkan dalam membawa AI generatif ke garis depan kepentingan publik, serta titik di mana organisasi berfokus untuk mengadopsi kecerdasan buatan di berbagai fungsi bisnis dan contoh penggunaan.

Di luar konteks perusahaan, LLM mungkin terlihat seperti muncul tiba-tiba seiring dengan perkembangan baru dalam AI generatif. Namun, banyak perusahaan, termasuk IBM, telah menghabiskan waktu bertahun-tahun untuk mengimplementasikan LLM di berbagai tingkatan untuk meningkatkan kemampuan pemahaman bahasa alami (NLU) dan pemrosesan bahasa alami (NLP). Hal ini terjadi seiring dengan kemajuan dalam machine learning, model machine learning, algoritma, jaringan neural, dan model transformator yang menyediakan arsitektur untuk sistem AI.

LLM adalah kelas model dasar, yang dilatih dengan data dalam jumlah yang sangat besar untuk memberikan kemampuan dasar yang diperlukan untuk mendorong berbagai contoh penggunaan dan aplikasi, serta menyelesaikan banyak tugas. Hal ini sangat kontras dengan gagasan untuk membangun dan melatih model spesifik domain untuk setiap contoh penggunaan secara individual, yang menjadi penghalang dalam banyak kriteria (terutama biaya dan infrastruktur), menghambat sinergi, dan bahkan dapat menyebabkan kinerja yang lebih rendah.

LLM mewakili terobosan signifikan dalam NLP dan kecerdasan buatan, dan mudah diakses oleh publik melalui antarmuka seperti Chat GPT-3 dan GPT-4 Open AI, yang telah mendapatkan dukungan dari Microsoft. Contoh lainnya termasuk model Llama Meta dan representasi encoder dua arah Google dari transformator (BERT/RoBERTa) dan model PaLM. IBM juga baru-baru ini meluncurkan seri model Granite di watsonx.ai, yang telah menjadi tulang punggung AI generatif untuk produk IBM lainnya seperti watsonx Assistant dan watsonx Orchestrate.

Singkatnya, LLM dirancang untuk memahami dan menghasilkan teks seperti manusia, di samping bentuk konten lainnya, berdasarkan sejumlah besar data yang digunakan untuk melatih mereka. Mereka memiliki kemampuan untuk menyimpulkan dari konteks, menghasilkan respons yang koheren dan relevan secara kontekstual, menerjemahkan ke bahasa selain bahasa Inggris, meringkas teks, menjawab pertanyaan (percakapan umum dan FAQ), dan bahkan membantu dalam penulisan kreatif atau pembuatan kode.

Mereka dapat melakukan hal ini berkat miliaran parameter yang memungkinkan mereka untuk menangkap pola rumit dalam bahasa dan melakukan beragam tugas yang berhubungan dengan bahasa. LLM merevolusi aplikasi di berbagai bidang, mulai dari chatbot dan asisten virtual hingga pembuatan konten, bantuan penelitian, dan penerjemahan bahasa.

Seiring dengan perkembangan dan peningkatannya, LLM siap untuk membentuk kembali cara kita berinteraksi dengan teknologi dan mengakses informasi, menjadikannya bagian penting dari lingkungan digital modern.

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Berlangganan hari ini

Cara kerja large language models

LLM beroperasi dengan memanfaatkan teknik pembelajaran mendalam dan data tekstual dalam jumlah besar. Model-model ini biasanya didasarkan pada arsitektur transformator, seperti transformator yang telah dilatih sebelumnya, yang unggul dalam menangani data berurutan seperti input teks. LLM terdiri dari beberapa lapisan jaringan neural, masing-masing dengan parameter yang dapat disetel dengan baik selama pelatihan, yang disempurnakan lebih lanjut oleh banyak lapisan yang dikenal sebagai mekanisme perhatian, yang memanggil bagian tertentu dari kumpulan data.

Selama proses pelatihan, model-model ini belajar memprediksi kata berikutnya dalam kalimat berdasarkan konteks yang diberikan oleh kata-kata sebelumnya. Model ini melakukan ini dengan menghubungkan skor probabilitas dengan pengulangan kata-kata yang telah diberi token, dipecah menjadi urutan karakter yang lebih kecil. Token ini kemudian diubah menjadi embeddings, yang merupakan representasi numerik dari konteks ini.

Untuk memastikan keakuratannya, proses ini melibatkan pelatihan LLM pada korpus teks yang sangat besar (dalam miliaran halaman), yang memungkinkan LLM mempelajari tata bahasa, semantik, dan hubungan konseptual melalui pembelajaran zero-shot dan pembelajaran mandiri. Setelah dilatih dengan data pelatihan ini, LLM dapat menghasilkan teks dengan memprediksi kata berikutnya secara mandiri berdasarkan input yang mereka terima, dan memanfaatkan pola dan pengetahuan yang telah mereka peroleh. Hasilnya adalah pembuatan bahasa yang koheren dan relevan secara kontekstual yang dapat dimanfaatkan untuk berbagai tugas NLU dan pembuatan konten.

Performa model juga dapat ditingkatkan melalui rekayasa prompt, penyetelan prompt, penyempurnaan, dan taktik lain seperti pembelajaran penguatan dengan masukan manusia (RLHF) untuk menghilangkan bias, ujaran kebencian, dan jawaban yang secara faktual tidak benar yang dikenal sebagai "halusinasi" yang sering kali merupakan hasil sampingan yang tidak diinginkan dari pelatihan terhadap data yang begitu banyak dan tidak terstruktur. Ini adalah salah satu aspek terpenting dalam memastikan LLM tingkat perusahaan siap digunakan dan tidak membuat organisasi terkena tanggung jawab yang tidak diinginkan, atau menyebabkan kerusakan pada reputasinya.

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Buka episode

Contoh penggunaan LLM

LLM mendefinisikan ulang semakin banyak proses bisnis dan telah membuktikan keserbagunaannya di berbagai contoh penggunaan dan tugas di berbagai industri. Mereka menambah AI percakapan dalam chatbot dan asisten virtual (seperti IBM watsonx Assistant dan Google BARD) untuk meningkatkan interaksi yang mendukung keunggulan dalam layanan pelanggan, memberikan respons yang sesuai dengan konteks yang meniru interaksi dengan agen manusia.

LLM juga unggul dalam pembuatan konten, mengotomatiskan pembuatan konten untuk artikel blog, materi pemasaran atau penjualan, dan tugas-tugas penulisan lainnya. Dalam penelitian dan akademik, mereka membantu meringkas dan mengekstrak informasi dari kumpulan data yang sangat besar, mempercepat penemuan pengetahuan. LLM juga memainkan peran penting dalam penerjemahan bahasa, mendobrak hambatan bahasa dengan menyediakan terjemahan yang akurat dan relevan secara kontekstual. Mereka bahkan dapat digunakan untuk menulis kode, atau "menerjemahkan" antar bahasa pemrograman.

Selain itu, mereka berkontribusi terhadap aksesibilitas dengan membantu individu dengan disabilitas, termasuk aplikasi text to speech dan menghasilkan konten dalam format yang dapat diakses. Dari perawatan kesehatan hingga keuangan, LLM mentransformasi industri dengan merampingkan proses, meningkatkan pengalaman pelanggan, dan memungkinkan pengambilan keputusan yang lebih efisien dan berbasis data.

Paling menariknya, semua kemampuan ini mudah diakses, di beberapa kasus hanya perlu integrasi API.

Berikut ini adalah daftar beberapa area terpenting di mana LLM memberikan manfaat bagi organisasi:

Pembuatan teks: kemampuan pembuatan bahasa, seperti menulis email, postingan blog, atau konten formulir menengah hingga panjang lainnya sebagai respons terhadap prompt yang dapat disempurnakan dan dipoles. Contoh yang sangat baik adalah generasi dengan dukungan pengambilan data (RAG).

Ringkasan konten: meringkas artikel panjang, berita, laporan penelitian, dokumentasi perusahaan, dan bahkan riwayat pelanggan ke dalam teks menyeluruh yang disesuaikan panjangnya dengan format output.

Asisten AI: chatbot yang menjawab pertanyaan pelanggan, melakukan tugas-tugas backend, dan memberikan informasi terperinci dalam bahasa alami sebagai bagian dari solusi layanan pelanggan yang terintegrasi dan melayani pelanggan secara mandiri.

Pembuatan kode: membantu pengembang dalam membangun aplikasi, menemukan kesalahan dalam kode dan mengungkap masalah keamanan dalam berbagai bahasa pemrograman, bahkan "menerjemahkan" di antara mereka.

Analisis sentimen: menganalisis teks untuk menentukan nada pelanggan untuk memahami masukan pelanggan dalam skala besar dan membantu dalam manajemen reputasi merek.

Penerjemahan bahasa: memberikan cakupan yang lebih luas kepada organisasi di antara bahasa dan geografi dengan terjemahan yang lancar dan kemampuan multibahasa.

LLM memberikan dampak pada setiap industri, mulai dari keuangan hingga asuransi, sumber daya manusia hingga perawatan kesehatan dan lebih jauh lagi, dengan mengotomatiskan layanan mandiri pelanggan, mempercepat waktu respons pada semakin banyak tugas serta memberikan akurasi yang lebih besar, perutean yang disempurnakan, dan pengumpulan konteks yang cerdas.

LLM dan pengelolaan

Organisasi membutuhkan fondasi yang kuat dalam praktik tata kelola untuk memanfaatkan potensi model AI guna merevolusi cara mereka berbisnis. Ini berarti menyediakan akses ke alat dan teknologi AI yang dapat dipercaya, transparan, bertanggung jawab, dan aman. Tata kelola dan penelusuran AI juga merupakan aspek fundamental dari solusi yang diberikan IBM kepada para pelanggannya, sehingga aktivitas yang melibatkan AI dikelola dan dipantau untuk memungkinkan penelusuran asal-usul, data, dan model dengan cara yang selalu dapat diaudit dan dipertanggungjawabkan.

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Apa itu large language models (LLM)?

2 November 2023