Apa itu Model Bahasa Besar Sumber Terbuka?

Model bahasa besar (LLM) adalah model dasar yang menggunakan kecerdasan buatan (AI), pembelajaran mendalam, dan kumpulan data yang sangat besar, termasuk situs web, artikel, dan buku, untuk menghasilkan teks, menerjemahkan ke berbagai bahasa, dan menulis berbagai jenis konten. Ada dua jenis model AI generatif ini: model bahasa besar berpemilik dan model bahasa besar sumber terbuka.

Dalam video ini, Martin Keen menjelaskan secara singkat model bahasa besar, bagaimana mereka berhubungan dengan model dasar, cara kerjanya, dan bagaimana mereka dapat digunakan untuk mengatasi berbagai masalah bisnis.

LLM berpemilik dimiliki oleh perusahaan dan hanya dapat digunakan oleh pelanggan yang membeli lisensi. Lisensi dapat membatasi bagaimana LLM dapat digunakan. Di sisi lain, LLM sumber terbuka gratis dan tersedia untuk diakses siapa pun, digunakan untuk tujuan apa pun, dimodifikasi, dan didistribusikan.

Istilah "sumber terbuka" mengacu pada kode LLM dan arsitektur yang mendasarinya yang dapat diakses oleh publik, yang berarti para pengembang dan peneliti bebas untuk menggunakan, meningkatkan, atau memodifikasi model tersebut.

Apa manfaat dari LLM sumber terbuka?

Sebelumnya tampaknya bahwa semakin besar LLM semakin baik, tetapi sekarang perusahaan menyadari bahwa dalam hal riset dan inovasi, LLM bisa sangat mahal. Sebagai tanggapan akan hal ini, ekosistem model sumber terbuka mulai menunjukkan harapan dan menantang model bisnis LLM.

Transparansi dan fleksibilitas

Perusahaan yang tidak memiliki talenta internal di bidang machine learning dapat menggunakan LLM sumber terbuka, yang memberikan transparansi dan fleksibilitas, di dalam infrastruktur mereka sendiri, baik di cloud atau on premises. Ini memberikan kontrol penuh atas data mereka dan berarti informasi sensitif tetap berada di dalam jaringan mereka. Semua ini mengurangi risiko kebocoran data atau akses tidak sah.

LLM sumber terbuka menawarkan transparansi mengenai cara kerja, arsitektur, dan data pelatihan serta metodologi dan cara penggunaannya. Kemampuan untuk memeriksa kode dan memiliki visibilitas tentang algoritma memungkinkan perusahaan untuk lebih mempercayai, membantu dalam hal audit, dan membantu memastikan kepatuhan terhadap etika dan hukum. Selain itu, mengoptimalkan sumber terbuka LLM secara efisien dapat mengurangi latensi dan meningkatkan kinerja.

Penghematan biaya

Mereka umumnya jauh lebih murah dalam jangka panjang daripada LLM berpemilik karena tidak melibatkan biaya lisensi. Namun, biaya pengoperasian LLM memang sudah termasuk biaya infrastruktur cloud atau on premises, dan biasanya melibatkan biaya peluncuran awal yang signifikan.

Fitur tambahan dan kontribusi komunitas

LLM sumber terbuka yang telah dilatih sebelumnya memungkinkan penyempurnaan. Perusahaan dapat menambahkan fitur pada LLM yang bermanfaat bagi penggunaan spesifik mereka dan LLM juga dapat dilatih pada kumpulan data tertentu. Membuat perubahan atau spesifikasi ini pada LLM berpemilik memerlukan kerja sama dengan vendor serta menghabiskan waktu dan uang.

Sementara LLM berpemilik berarti perusahaan harus bergantung pada satu penyedia, sumber terbuka memungkinkan perusahaan untuk memanfaatkan kontribusi komunitas, banyak penyedia layanan, dan mungkin tim internal untuk menangani pembaruan, pengembangan, pemeliharaan, dan dukungan. Sumber terbuka memungkinkan perusahaan untuk bereksperimen dan menggunakan kontribusi dari berbagai orang dengan perspektif yang berbeda-beda. Ini dapat menghasilkan solusi yang memungkinkan perusahaan untuk tetap berada di ujung tombak teknologi. Ini juga memberikan bisnis pengguna LLM sumber terbuka lebih banyak kontrol atas teknologi mereka dan keputusan mengenai cara penggunaannya.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Jenis proyek apa yang dapat diaktifkan oleh model LLM sumber terbuka?

Organisasi dapat menggunakan model LLM sumber terbuka untuk membuat hampir semua proyek yang berguna bagi karyawan mereka atau, jika lisensi sumber terbuka mengizinkan, dapat ditawarkan sebagai produk komersial. Ini mencakup:

Pembuatan teks

Model LLM sumber terbuka memungkinkan Anda membuat aplikasi dengan kemampuan pembuatan bahasa, seperti menulis email, postingan blog, atau cerita kreatif. LLM seperti Falcon-40B, yang ditawarkan di bawah lisensi Apache 2.0, dapat merespons prompt dengan saran teks berkualitas tinggi yang kemudian dapat Anda sempurnakan dan poles.

Pembuatan kode

LLM sumber terbuka yang dilatih pada kode dan bahasa pemrograman yang ada dapat membantu pengembang dalam membangun aplikasi dan menemukan kesalahan dan kesalahan terkait keamanan.

Bimbingan virtual

Sumber terbuka LLM memungkinkan Anda membuat aplikasi yang menawarkan pengalaman belajar yang dipersonalisasi, yang dapat disesuaikan dan disempurnakan untuk gaya belajar tertentu.

Perangkuman konten

Alat LLM sumber terbuka yang meringkas artikel panjang, konten berita, laporan riset, dan banyak lagi yang dapat memudahkan untuk mengekstraksi data penting.

Chatbot berbasis AI

Alat ini dapat memahami dan menjawab pertanyaan, menawarkan saran, dan terlibat dalam percakapan bahasa alami.

Penerjemahan bahasa

LLM sumber terbuka yang dilatih pada kumpulan data multibahasa dapat memberikan terjemahan yang akurat dan lancar dalam banyak bahasa.

Analisis sentimen

LLM dapat menganalisis teks untuk menentukan nada emosional atau sentimen, yang sangat berharga dalam manajemen reputasi merek dan analisis masukan pelanggan.

Penyaringan dan moderasi konten

LLM bisa sangat bermanfaat dalam mengidentifikasi dan menyaring konten online yang tidak pantas atau berbahaya, yang sangat membantu dalam menjaga lingkungan online yang lebih aman.

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Buka episode

Jenis organisasi apa yang menggunakan LLM sumber terbuka?

Berbagai jenis organisasi menggunakan LLM sumber terbuka. Misalnya, IBM dan NASA mengembangkan LLM sumber terbuka yang dilatih pada data geospasial untuk membantu para ilmuwan dan organisasi mereka memerangi perubahan iklim.

Penerbit dan jurnalis menggunakan LLM sumber terbuka secara internal untuk menganalisis, mengidentifikasi, dan meringkas informasi tanpa membagikan data kepemilikan di luar ruang redaksi.

Beberapa organisasi layanan kesehatan menggunakan LLM sumber terbuka untuk perangkat lunak layanan kesehatan, termasuk alat diagnosis, pengoptimalan perawatan, dan alat yang menangani informasi pasien, kesehatan masyarakat, dan banyak lagi.

LLM sumber terbuka, FinGPT, dikembangkan khusus untuk industri keuangan.

Beberapa LLM sumber terbuka terbaik yang dikurasi

Open LLM Leaderboard bertujuan untuk melacak, memeringkat, dan mengevaluasi LLM dan chatbot sumber terbuka pada tolok ukur yang berbeda.

Salah satu LLM sumber terbuka yang berkinerja baik dengan lisensi yang memungkinkan perjanjian untuk penggunaan komersial adalah LLaMa 2 oleh Meta AI, yang mencakup model teks generatif yang telah dilatih dan disempurnakan dengan 7 hingga 70 miliar parameter dan tersedia di studio watsonx.ai. Ini juga tersedia melalui ekosistem Hugging Face dan pustaka transformator.
Vicuna dan Alpaca diciptakan di atas model LLaMa dan, seperti Bard milik Google dan ChatGPT milik OpenAI, disempurnakan untuk mengikuti instruksi. Vicuna, yang mengungguli Alpaca, menyamai kinerja GPT-4.
Bloom (tautan berada di luar ibm.com) oleh BigScience adalah model bahasa multibahasa yang dibuat oleh lebih dari 1.000 peneliti AI. Ini adalah LLM multibahasa pertama yang dilatih dalam transparansi lengkap.
Falcon (tautan berada di luar ibm.com) LLM dari Technology Innovation Institute (TII) dapat digunakan dengan chatbot untuk menghasilkan teks kreatif, memecahkan masalah kompleks, serta mengurangi dan mengotomatiskan tugas berulang. Baik Falcon 6B maupun 40B tersedia sebagai model mentah untuk penyempurnaan atau sebagai model yang sudah disetel dengan instruksi yang dapat digunakan sebagaimana adanya. Falcon hanya menggunakan sekitar 75% dari anggaran komputasi pelatihan GPT-3 dan secara signifikan mengunggulinya.
MPT-7B dan MPT-30B (tautan berada di luar ibm.com) adalah LLM sumber terbuka yang dilisensikan untuk penggunaan komersial dari MosaicML (baru-baru ini diakuisisi oleh Databricks). MPT-7B cocok dengan kinerja LlaMA. MPT-30B mengungguli GPT-3. Keduanya dilatih dengan token 1 triliun.
FLAN-T5, diluncurkan oleh Google AI, dapat menangani lebih dari 1.800 tugas yang beragam.
StarCoder (tautan berada di luar ibm.com) dari Hugging Face adalah asisten pengodean LLM sumber terbuka yang dilatih pada kode permisif dari GitHub.
RedPajama-INCITE (tautan berada di luar ibm.com), dilisensikan di bawah Apache-2, adalah model bahasa terlatih dengan parameter 6,9 miliar yang dikembangkan oleh Together dan para pemimpin dari berbagai institusi, termasuk University of Montreal dan Stanford Center for Research on Foundation Models.
Cerebras-GPT (tautan berada di luar ibm.com) dari Cerebras adalah keluarga tujuh model GPT dengan parameter berkisar antara 111 juta hingga 13 miliar.
StableLM adalah LLM sumber terbuka dari Stability AI, yang membuat pembuat gambar AI, Stable Diffusion. LLM ini dilatih pada kumpulan data berisi 1,5 triliun token yang disebut “The Pile” dan disempurnakan dengan kombinasi berbagai kumpulan data sumber terbuka dari Alpaca, GPT4all (yang menawarkan berbagai model berdasarkan GPT-J, MPT, dan LlaMa), Dolly, ShareGPT, dan HH.

Risiko yang terkait dengan model bahasa besar

Meskipun output LLM terdengar fasih dan otoritatif, mungkin ada risiko yang mencakup menawarkan informasi berdasarkan “halusinasi” serta masalah dengan bias, persetujuan, atau keamanan. Pendidikan tentang risiko ini adalah satu jawaban untuk berbagai masalah data dan AI ini.

Halusinasi, atau kepalsuan, dapat dihasilkan dari LLM yang dilatih pada data yang tidak lengkap, kontradiktif, atau tidak akurat, atau dari memprediksi kata akurat berikutnya berdasarkan konteks tanpa memahami makna.
Bias terjadi ketika sumber data tidak beragam atau representatif.
Persetujuan mengacu pada apakah data pelatihan dikumpulkan dengan akuntabilitas, yang berarti mengikuti proses tata kelola AI yang membuatnya sesuai dengan hukum dan peraturan, dan menawarkan cara bagi orang untuk menggabungkan masukan.
Masalah keamanan dapat mencakup bocornya PII, penjahat siber yang menggunakan LLM untuk tugas jahat seperti phishing dan spam, dan peretas yang mengubah pemrograman asli.

Model bahasa besar sumber terbuka dan IBM

Model AI, khususnya LLM, akan menjadi salah satu teknologi paling transformatif pada dekade berikutnya. Karena peraturan AI baru memberlakukan pedoman seputar penggunaan AI, sangat penting untuk tidak hanya mengelola dan mengatur model AI tetapi, yang sama pentingnya, mengatur data yang dimasukkan ke dalam AI.

Untuk membantu organisasi mengatasi kebutuhan ini dan melipatgandakan dampak AI, IBM menawarkan watsonx, platform AI dan data siap perusahaan kami. Bersama-sama, watsonx menawarkan organisasi kemampuan untuk:

Melatih, menyetel, dan menerapkan AI di seluruh bisnis Anda dengan watsonx.ai
Menskalakan beban kerja AI untuk semua data Anda di mana saja dengan watsonx.data
Aktifkan alur kerja data dan AI yang bertanggung jawab, transparan, dan dapat dijelaskan dengan watsonx.governance

Fungsionalitas pencarian percakapan IBM® watsonx Assistant dibangun di atas fondasi integrasi bawaan, kerangka kerja integrasi kode rendah (tautan berada di luar ibm.com), dan pengalaman penulisan no-code. Pengembang dan pengguna bisnis sama-sama dapat mengotomatiskan jawaban pertanyaan dengan pencarian percakapan, membebaskan diri untuk membangun aliran transaksional bernilai lebih tinggi, dan pengalaman digital terintegrasi dengan asisten virtual mereka.

Selain pencarian percakapan, watsonx Assistant terus berkolaborasi dengan IBM Research dan watsonx untuk mengembangkan LLM watsonx khusus yang mengkhususkan diri dalam klasifikasi, penalaran, ekstraksi informasi, peringkasan, dan contoh penggunaan percakapan lainnya. Asisten watsonx telah mencapai kemajuan besar dalam kemampuannya untuk memahami pelanggan dengan sedikit upaya menggunakan model bahasa besar.

Penulis

IBM Data and AI Team

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Model-model bahasa besar sumber terbuka: Manfaat, risiko, dan jenisnya