Apa itu Large Language Models (LLM)?

Penulis

Staff Editor, AI Models

IBM Think

Apa itu LLM?

Model bahasa besar (LLM) adalah kategori model pembelajaran mendalam yang dilatih pada data dalam jumlah sangat besar, membuatnya mampu memahami dan menghasilkan bahasa alami dan jenis konten lainnya untuk melakukan berbagai tugas. LLM dibangun di atas jenis arsitektur neural networks yang disebut transformator yang unggul dalam menangani urutan kata dan menangkap pola dalam teks.

LLM bekerja sebagai mesin prediksi statistik raksasa yang berulang kali memprediksi kata berikutnya dalam suatu urutan. Mereka mempelajari pola dalam teks dan menghasilkan bahasa yang mengikuti semua pola itu.

LLM menggambarkan lompatan besar dalam cara manusia berinteraksi dengan teknologi karena mereka adalah sistem AI pertama yang dapat menangani bahasa manusia yang tidak terstruktur dalam skala besar, memungkinkan komunikasi alami dengan mesin. Jika mesin pencari tradisional dan sistem terprogram lainnya menggunakan algoritma untuk mencocokkan kata kunci, LLM menangkap konteks, nuansa, dan penalaran yang lebih dalam. Setelah dilatih LLM dapat beradaptasi dengan banyak aplikasi yang melibatkan penafsiran teks, seperti meringkas artikel, melakukan debug pada kode, atau menyusun klausul hukum. Ketika diberi kemampuan agentik, dengan tingkat otonomi berbeda LLM dapat melakukan berbagai tugas yang seharusnya dilakukan oleh manusia.

LLM adalah puncak dari kemajuan selama puluhan tahun dalam penelitian pemrosesan bahasa alami (NLP) dan machine learning, dan perkembangannya menghasilkan sebagian besar ledakan kemajuan kecerdasan buatan pada akhir tahun 2010 dan 2020-an. LLM populer dikenal luas di masyarakat, menjadikan AI generatif sebagai fokus utama dari perhatian publik. LLM juga digunakan secara luas di perusahaan, dengan organisasi yang berinvestasi besar-besaran di berbagai fungsi bisnis dan contoh penggunaan.

LLM mudah diakses oleh publik melalui antarmuka seperti Claude dari Anthropic, ChatGPT dari Open AI, Copilot dari Microsoft, model Llama dari Meta, dan asisten Gemini beserta model BERT dan PaLM dari Google. IBM memelihara seri model Granite pada watsonx.ai, yang telah menjadi tulang punggung AI generatif untuk produk IBM lainnya seperti watsonx Assistant dan watsonx Orchestrate.

Melakukan prapelatihan pada model bahasa besar

Pelatihan dimulai dengan sejumlah besar data—miliar atau triliunan kata dari buku, artikel, situs web, kode, dan sumber teks lainnya. Ilmuwan data mengawasi pembersihan dan prapemrosesan untuk menghilangkan kesalahan, duplikasi, dan konten yang tidak diinginkan.

Teks ini dipecah menjadi unit yang lebih kecil dan dapat dibaca mesin yang disebut “token” selama proses “tokenisasi.” Token adalah unit yang lebih kecil seperti kata, subkata, atau karakter. Proses ini menstandarkan bahasa sehingga kata-kata langka dan baru dapat ditangani secara konsisten.

LLM pada awalnya dilatih dengan pembelajaran dengan pengawasan mandiri, teknik machine learning yang menggunakan data tidak berlabel untuk pembelajaran diawasi. Pembelajaran dengan pengawasan mandiri tidak memerlukan kumpulan data berlabel, tetapi terkait erat dengan pembelajaran diawasi karena mengoptimalkan kinerja terhadap "kebenaran dasar." Dalam pembelajaran dengan pengawasan mandiri, tugas dirancang sedemikian rupa sehingga "kebenaran dasar" dapat disimpulkan dari data yang tidak berlabel. Alih-alih diberi tahu “output yang benar” untuk setiap input, seperti dalam pembelajaran diawasi, model mencoba menemukan sendiri pola, struktur, atau hubungan dalam data.

Perhatian diri

Model melewati token melalui jaringan transformator. Model transformator, diperkenalkan pada tahun 2017, berguna karena mekanisme perhatian diri yang memungkinkan mereka untuk “memperhatikan” token yang berbeda pada saat yang berbeda. Teknik ini adalah pusat transformator dan inovasi utamanya. Perhatian diri berguna, sebagian karena memungkinkan model AI untuk menghitung hubungan dan dependensi di antara token, terutama token yang berjauhan satu sama lain dalam teks. Arsitektur transformator juga memungkinkan paralelisasi, membuat proses ini jauh lebih efisien daripada metode sebelumnya. Kualitas ini memungkinkan LLM untuk menangani kumpulan data besar yang belum pernah terjadi sebelumnya.

Setelah teks dibagi menjadi token, setiap token dipetakan ke vektor angka yang disebut penanaman. Neural networks terdiri dari lapisan neuron buatan, di mana setiap neuron melakukan operasi matematika. Transformator terdiri atas banyak lapisan ini dan penanaman agak disesuaikan pada tiap lapisan, sehingga representasi di antara berbagai lapisan lebih kaya dari segi konteks.

Tujuan dari proses ini adalah agar model dapat mempelajari asosiasi semantik di antara kata-kata, sehingga kata-kata seperti "gonggongan" dan "anjing" tampak berada lebih dekat dalam ruang vektor dalam teks tentang anjing daripada "gonggongan" dan "pohon", berdasarkan kata-kata yang berhubungan dengan anjing di sekitarnya dalam teks tersebut. Transformator juga menambahkan pengodean posisi yang memberikan informasi pada setiap token tentang tempatnya dalam urutan.

Untuk menghitung perhatian, setiap penanaman diproyeksikan ke dalam tiga vektor berbeda menggunakan matriks bobot yang dipelajari: kueri, kunci, dan nilai. Kueri menunjukkan apa yang "dicari" oleh token tertentu, kunci menunjukkan informasi yang dikandung setiap token, dan nilai "menghasilkan" informasi dari setiap vektor kunci, yang diskalakan dengan bobot perhatian masing-masing.

Skor penyelarasan kemudian dihitung sebagai kesamaan antara kueri dan kunci. Setelah dinormalisasi menjadi bobot perhatian skor ini menentukan berapa banyak dari setiap vektor nilai yang mengalir ke representasi token saat ini. Proses ini memungkinkan model untuk secara fleksibel berfokus pada konteks yang relevan sekaligus mengabaikan token yang kurang penting (seperti "pohon").

Jadi, perhatian diri menciptakan koneksi “tertimbang” di antara semua token dengan lebih efisien daripada arsitektur sebelumnya. Model ini memberikan bobot pada setiap hubungan di antara token. LLM dapat memiliki miliaran atau triliunan bobot ini yang merupakan salah satu jenis parameter LLM, variabel konfigurasi internal dari model machine learning yang mengontrol bagaimana ia memproses data dan membuat prediksi. Jumlah parameter mengacu pada berapa banyak variabel ini terdapat dalam sebuah model, dengan beberapa LLM berisi miliaran parameter. Apa yang disebut model bahasa kecil berukuran lebih kecil dalam hal skala dan ruang lingkup dengan parameter yang relatif sedikit, membuatnya cocok untuk penerapan pada perangkat yang lebih kecil atau di lingkungan dengan sumber daya terbatas.

Selama pelatihan, model membuat prediksi pada jutaan contoh yang diambil dari data pelatihannya dan fungsi kesalahan mengukur kesalahan dari setiap prediksi. Melalui siklus berulang dalam membuat prediksi dan kemudian memperbarui bobot model melalui propagasi balik dan penurunan gradien, model "mempelajari" bobot dalam lapisan yang menghasilkan vektor kueri, kunci, dan nilai.

Setelah bobot tersebut cukup dioptimalkan, mereka dapat mengambil penanaman vektor asli dari token apa pun dan menghasilkan vektor kueri, kunci, dan nilai untuknya yang, ketika berinteraksi dengan vektor yang dihasilkan untuk semua token lain, akan menghasilkan skor penyelarasan “lebih baik” yang pada gilirannya menghasilkan bobot perhatian yang membantu model menghasilkan output yang lebih baik. Hasil akhirnya adalah model yang mempelajari pola dalam tata bahasa, fakta, struktur penalaran, gaya penulisan, dan banyak lagi.

Menyempurnakan model bahasa besar

Setelah pelatihan (atau dalam konteks pelatihan tambahan, "prapelatihan"), LLM dapat disempurnakan agar lebih berguna dalam konteks tertentu. Misalnya, model dasar yang dilatih pada kumpulan data besar tentang pengetahuan umum dapat disempurnakan pada korpus tanya jawab hukum untuk membuat chatbot untuk bidang hukum.

Berikut adalah beberapa bentuk penyempurnaan yang paling umum. Praktisi dapat menggunakan satu metode atau kombinasi beberapa metode.

Penyempurnaan diawasi

Penyempurnaan paling sering terjadi dalam konteks yang diawasi dengan kumpulan data berlabel yang jauh lebih kecil. Model memperbarui bobotnya agar lebih cocok dengan kebenaran dasar baru (dalam hal ini, data berlabel).

Prapelatihan dimaksudkan untuk memberikan model pengetahuan umum yang luas, sedangkan penyempurnaan mengadaptasi model dengan tujuan umum untuk tugas-tugas spesifik seperti peringkasan, klasifikasi, atau dukungan pelanggan. Adaptasi fungsional ini mewakili jenis tugas baru. Penyempurnaan yang diawasi menghasilkan output yang lebih dekat dengan contoh yang diberikan oleh manusia, sehingga membutuhkan sumber daya yang jauh lebih sedikit daripada jika dilatih sejak awal.

Penyempurnaan yang diawasi juga berguna untuk penyesuaian khusus domain, seperti melatih model pada dokumen medis sehingga memiliki kemampuan untuk menjawab pertanyaan yang berhubungan dengan perawatan kesehatan.

Pembelajaran penguatan dari masukan manusia

Untuk menyempurnakan model lebih lanjut, ilmuwan data sering menggunakan pembelajaran penguatan dari masukan manusia (RLHF), suatu bentuk penyempurnaan di mana manusia memberi peringkat pada output dan model dilatih untuk lebih memilih output yang diberi peringkat lebih tinggi oleh manusia. RLHF sering digunakan dalam penyelarasan, sebuah proses yang terdiri dari membuat output LLM yang berguna, aman, dan konsisten dengan nilai-nilai kemanusiaan.

RLHF juga sangat berguna untuk penyelarasan gaya, di mana LLM dapat disesuaikan untuk merespons dengan cara yang lebih kasual, lucu, atau konsisten dengan merek. Penyelarasan gaya melibatkan pelatihan untuk jenis tugas yang sama, tetapi menghasilkan output dalam gaya tertentu.

Model penalaran

Penyempurnaan yang diawasi sepenuhnya mengajarkan model untuk meniru contoh, tetapi tidak mesti mendorong penalaran yang lebih baik, yang melibatkan proses banyak langkah yang abstrak. Tugas seperti itu tidak selalu memiliki data berlabel yang berlimpah, sehingga pembelajaran penguatan sering digunakan dalam pembuatan model penalaran, LLM yang telah disempurnakan memecah masalah yang kompleks menjadi langkah-langkah yang lebih kecil yang sering disebut "jejak penalaran", sebelum menghasilkan output akhir. Sarana model pelatihan yang semakin canggih memberi mereka penalaran rantai pemikiran dan strategi pengambilan keputusan lainnya yang memiliki banyak langkah.

Penyetelan instruksi

Bentuk lain dari penyesuaian LLM adalah penyetelan instruksi, sebuah proses yang dirancang khusus untuk meningkatkan kemampuan model dalam mengikuti instruksi manusia. Sampel input dalam kumpulan data instruksi seluruhnya terdiri dari tugas-tugas yang menyerupai permintaan yang mungkin dibuat pengguna dalam prompt mereka; output menunjukkan respons yang diinginkan terhadap permintaan tersebut. Karena LLM yang sudah terlatih tidak dioptimalkan secara inheren untuk mengikuti instruksi atau tujuan percakapan, penyetelan instruksi digunakan untuk menyelaraskan model dengan maksud pengguna dengan lebih baik.

Menggunakan model bahasa besar

Setelah dilatih, model bahasa besar bekerja dengan menanggapi prompt, memecah prompt dan mengubahnya menjadi penanaman, lalu menggunakan transformatornya untuk menghasilkan teks, satu token pada satu waktu, menghitung probabilitas untuk semua token potensial berikutnya, dan memberikan output yang paling mungkin. Proses ini yang disebut inferensi diulang sampai output selesai. Model ini tidak "mengetahui" jawaban akhir sebelumnya; model ini menggunakan semua hubungan statistik yang dipelajarinya dalam pelatihan untuk memprediksi satu token pada satu waktu, membuat tebakan terbaiknya di setiap langkah.

Cara termudah dan tercepat untuk mendapatkan pengetahuan khusus domain dari LLM bertujuan umum adalah melalui rekayasa prompt yang tidak memerlukan pelatihan tambahan. Pengguna dapat memodifikasi prompt dengan berbagai cara. Misalnya, prompt seperti “jawab dengan suara profesional perawatan kesehatan terlatih” dapat menghasilkan hasil yang lebih relevan (Perhatikan bahwa LLM tidak disarankan untuk digunakan untuk meminta nasihat medis!).

LLM memiliki strategi lain untuk mengontrol output mereka, seperti parameter LLM, yang mengontrol keacakan teks yang dihasilkan oleh LLM selama inferensi, atau pengambilan sampel top-k/top-p yang membatasi kumpulan token yang dianggap paling mungkin, sehingga menyeimbangkan kreativitas dan koherensi.

Jendela konteks adalah jumlah maksimum token yang dapat “dilihat” dan digunakan model sekaligus saat menghasilkan teks. LLM terdahulu memiliki jendela pendek, tetapi LLM yang lebih baru memiliki ratusan ribu token dalam jendela konteksnya, memungkinkan contoh penggunaan seperti meringkas seluruh makalah penelitian, melakukan bantuan kode pada basis kode besar, dan melakukan percakapan berkelanjutan yang panjang dengan pengguna.

Retrieval-augmented generation (RAG) adalah metode untuk menghubungkan model terlatih dengan basis pengetahuan eksternal, yang memungkinkannya memberikan respons yang lebih relevan dengan tingkat akurasi yang lebih tinggi. Informasi yang diambil diteruskan ke jendela konteks model, sehingga model dapat menggunakannya saat menghasilkan respons, tanpa memerlukan pelatihan ulang. Sebagai contoh, dengan menghubungkan LLM ke basis data layanan cuaca dinamis, LLM dapat mengambil informasi untuk pengguna tentang laporan cuaca hari itu.

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Buka episode

Menerapkan LLM

Membangun LLM dari awal adalah proses yang kompleks dan padat sumber daya. LLM yang paling populer adalah hasil dari sejumlah besar data, GPU, energi, dan keahlian manusia, itulah sebabnya sebagian besar dibangun dan dipelihara oleh perusahaan teknologi besar dengan sumber daya yang luas.

Namun, banyak dari model ini dapat diakses oleh semua pengembang melalui API. Pengembang dapat menggunakan model terlatih untuk membangun chatbot, sistem pengambilan pengetahuan, alat otomatisasi, dan banyak lagi. Untuk kontrol lebih besar atas data dan penyesuaian, banyak model sumber terbuka dapat diterapkan secara setempat atau di cloud. Github, Hugging Face, Kaggle, dan platform lainnya membuat pengembangan AI dapat diakses oleh semua orang.

Pengembang dapat menggunakan LLM sebagai dasar untuk semua jenis aplikasi AI. Salah satu perkembangan paling menarik dalam AI adalah sistem agen. Agen AI tidak hanya berpikir; mereka bertindak. Dengan sendirinya, LLM hanya menghasilkan teks berdasarkan konteks, tetapi mereka dapat diintegrasikan dengan memori, API, logika keputusan, dan sistem eksternal lainnya untuk melakukan berbagai tugas tertentu, seperti memesan penerbangan atau mengemudikan kendaraan otonom.

Contoh penggunaan model bahasa besar

LLM mendefinisikan ulang proses bisnis dan telah membuktikan keserbagunaannya di berbagai contoh penggunaan di banyak industri.

Pembuatan teks: LLM dapat melakukan segala macam tugas pembuatan konten seperti menyusun email, postingan blog, atau memo hukum sebagai tanggapan atas prompt.

Peringkasan teks: LLM dapat meringkas artikel panjang, berita, laporan penelitian, dokumentasi perusahaan, dan riwayat pelanggan menjadi teks menyeluruh yang panjangnya disesuaikan dengan format dan gaya output yang diinginkan.

Asisten AI: Chatbot yang didukung oleh AI percakapan dapat menjawab pertanyaan dan memberikan informasi terperinci sebagai bagian dari solusi layanan pelanggan real-time yang terintegrasi.

Pembuatan kode: Kode membantu platform dalam membantu pengembang membangun aplikasi, menemukan kesalahan dalam kode, dan mengungkap masalah keamanan dalam berbagai bahasa pemrograman, bahkan menerjemahkan bahasa tersebut.

Analisis sentimen: Intonasi pelanggan dianalisis untuk lebih memahami masukan pelanggan dalam skala besar.

Penerjemahan bahasa: Terjemahan otomatis memberikan cakupan yang lebih luas kepada organisasi lintas bahasa dan geografi dengan terjemahan yang lancar dan kemampuan multibahasa.
Penalaran: LLM dapat memecahkan masalah matematika, merencanakan proses dengan banyak langkah, dan menjelaskan konsep kompleks dalam istilah yang lebih sederhana.

Mengevaluasi LLM

LLM adalah alat yang ampuh, tetapi mereka memiliki beberapa keterbatasan. Salah satu perhatian utama adalah akurasi. Selama peristiwa halusinasi, model menghasilkan informasi yang salah atau menyesatkan meskipun terdengar masuk akal. LLM juga dapat mencerminkan dan memperkuat bias yang ada dalam data pelatihan mereka, menghasilkan output yang tidak adil atau menyinggung. Selain itu, kebutuhan mereka akan sumber daya signifikan: melatih dan menjalankan LLM membutuhkan sejumlah besar daya komputasi dan energi yang menyebabkan masalah biaya dan lingkungan.

Praktisi dapat mengurangi aspek negatif LLM ini melalui tata kelola AI, proses, standar, dan batasan komprehensif yang membantu memastikan sistem dan alat AI aman dan etis. Bagian penting dari tata kelola melibatkan evaluasi model terhadap tolok ukur. Tolok ukur LLM memberikan skor kuantitatif, sehingga lebih mudah untuk membandingkan model. Karena LLM adalah sistem serba guna yang mampu melakukan berbagai macam tugas, evaluasi pada sistem ini memerlukan banyak dimensi, bukan hanya satu tolok ukur. Para peneliti dan praktisi melihat kualitas seperti akurasi, efisiensi, keamanan, keadilan, dan ketahanan untuk menentukan seberapa baik kinerja model.

LLM juga dievaluasi berdasarkan keselarasan dan keamanan, dengan teknik seperti red-teaming, di mana evaluator secara sengaja mencoba membuat model menghasilkan respons yang tidak aman atau bias untuk mengekspos kelemahan. Evaluasi yang adil dan tidak bias dapat membantu para praktisi mencegah LLM mereproduksi stereotip atau informasi salah yang berbahaya.

Selain itu, LLM umumnya dievaluasi berdasarkan efisiensi. Kecepatan, konsumsi energi, throughput token, jejak memori, dan kemampuan untuk menangani jendela konteks yang panjang adalah beberapa metrik umum yang digunakan untuk mengevaluasi seberapa efisien LLM dapat mencapai output.

Sejarah singkat LLM

Sejarah LLM berawal dari masa awal komputasi dan pemrosesan bahasa alami, ketika para peneliti menggunakan sistem berbasis aturan dan metode statistik untuk memodelkan teks. Pendekatan awal ini dapat menangkap pola kata lokal tetapi gagal memahami ketergantungan dengan rentang jauh atau semantik yang lebih dalam.

Pergeseran besar terjadi pada tahun 2010-an dengan munculnya neural networks, dengan penanaman kata seperti Word2Vec dan GloVe yang menunjukkan kata-kata sebagai vektor dalam ruang kontinu, sehingga model dapat mempelajari hubungan semantik. Model urutan seperti recurrent neural networks (RNN) dan jaringan memori jangka pendek (LSTM) muncul untuk menangani data berurutan dengan lebih baik.

Pada tahun 2017, Vaswani et al. memperkenalkan arsitektur transformator encoder-decoder dalam makalah penting "Attention Is All You Need."[1]. Transformator memungkinkan pelatihan model pada kumpulan data besar, menandai awal era LLM modern. BERT dari Google (2018), sebuah transformator khusus encoder, mendemonstrasikan kekuatan transformator untuk memahami bahasa, sementara seri generative pretrained transformer (GPT) dari OpenAI, yang didasarkan pada varian khusus decoder, menunjukkan bagaimana prapelatihan generatif pada teks berskala internet dapat menghasilkan pembuatan bahasa yang sangat fasih. Pada waktu yang sama, model encoder-decoder seperti T5 dari Google dan BART dari Facebook memamerkan kekuatan desain urutan ke urutan penuh untuk berbagai tugas seperti penerjemahan dan peringkasan. GPT-2 (2019) menarik perhatian karena kemampuannya menghasilkan paragraf yang koheren, sementara GPT-3 (2020) dengan 175 miliar parameter, mengukuhkan LLM sebagai kekuatan transformatif dalam AI.

Selain itu, arsitektur baru menantang popularitas transformator di LLM. Model Mamba bekerja dengan menggunakan model ruang keadaan dengan pembaruan selektif yang secara efisien menyaring dan menggabungkan informasi masa lalu, memungkinkannya menangkap dependensi dengan rentang yang jauh. LLM difusi dimulai dengan ketidakakuratan acak dan secara bertahap menghilangkannya selangkah demi selangkah, dipandu oleh model yang dipelajari, hingga teks yang koheren muncul. Kedua arsitektur bisa jauh lebih efisien daripada transformator.

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Catatan kaki

1. “Attention is all you need”, Vaswani et al, arXiv, 12 Juni 2017

Apa itu large language models (LLM)?