Lebih besar tidak selalu lebih baik: Bagaimana pola AI hybrid memungkinkan model bahasa yang lebih kecil

Beberapa kubus biru, merah muda, dan ungu

Karena model bahasa besar (LLM) telah memasuki vernakular umum, orang telah menemukan cara menggunakan aplikasi yang mengaksesnya. Alat AI modern dapat menghasilkan, membuat, meringkas, menerjemahkan, mengklasifikasikan, dan bahkan berbicara. Alat dalam domain AI generatif memungkinkan kita menghasilkan tanggapan terhadap prompt setelah belajar dari artefak yang ada.

Salah satu area yang belum melihat banyak inovasi adalah di ujung jauh dan pada perangkat yang terbatas. Kami melihat beberapa versi aplikasi AI berjalan secara lokal di perangkat mobile dengan fitur terjemahan bahasa yang disematkan, tetapi kami belum mencapai titik di mana LLM menghasilkan nilai di luar penyedia cloud.

Namun, ada model yang lebih kecil yang memiliki potensi untuk berinovasi gen AI kemampuan pada mobile. Mari kita periksa solusi ini dari perspektif model AI hybrid.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Dasar-dasar LLM

LLM adalah kelas khusus model AI yang mendukung paradigma baru ini. Pemrosesan bahasa alami (NLP) memungkinkan kemampuan ini. Untuk melatih LLM, pengembang menggunakan sejumlah besar data dari berbagai sumber, termasuk internet. Miliaran parameter yang diproses membuatnya begitu besar.

Meskipun LLM memiliki pengetahuan luas tentang berbagai topik, model tersebut tetap terbatas pada data yang digunakan saat pelatihannya. Artinya, model tersebut kadang tidak menyediakan informasi yang benar-benar terbaru atau benar. Karena ukurannya, LLM biasanya di-host di cloud, yang membutuhkan penerapan perangkat keras yang kuat dengan banyak GPU.

Ini berarti bahwa perusahaan yang ingin menambang informasi dari data bisnis pribadi atau kepemilikan mereka tidak dapat menggunakan LLM dalam bentuk standar tanpa penyesuaian. Agar dapat memberikan jawaban yang terarah, menghasilkan rangkuman, atau membuat brief, perusahaan perlu menggabungkan data mereka dengan LLM publik atau mengembangkan model mereka sendiri. Cara untuk menambahkan data sendiri ke LLM dikenal sebagai pembuatan augmentasi pengambilan, atau pola RAG. Ini adalah pola desain gen AI yang menambahkan data eksternal ke LLM.

Akademi AI

Memilih model AI yang tepat untuk contoh penggunaan Anda

Lebih besar tidak selalu lebih baik dalam hal model AI. Pelajari cara menemukan model yang tepat untuk kebutuhan bisnis Anda. Kemudian dapatkan buku panduan untuk membantu Anda mengambil tindakan.

Apakah lebih kecil lebih baik?

Perusahaan yang beroperasi di domain khusus, seperti telekomunikasi atau layanan kesehatan atau perusahaan minyak dan gas, memiliki fokus laser. Meskipun mereka dapat dan memang mendapat manfaat dari skenario dan contoh penggunaan gen AI yang khas, mereka akan lebih baik dilayani dengan model yang lebih kecil.

Dalam kasus telekomunikasi, misalnya, beberapa contoh penggunaan umum adalah asisten AI di pusat kontak, penawaran yang dipersonalisasi dalam pengiriman layanan, dan chatbot didukung AI untuk meningkatkan pengalaman. Kasus penggunaan yang membantu perusahaan telekomunikasi meningkatkan kinerja jaringan mereka, meningkatkan efisiensi spektral dalam jaringan 5G atau membantu mereka menentukan hambatan tertentu dalam jaringan mereka paling baik dilayani oleh data perusahaan sendiri (sebagai lawan dari LLM publik).

Itu membawa kita pada gagasan bahwa lebih kecil lebih baik. Sekarang ada Model Bahasa Kecil (Small Language Models, SLM) yang ukurannya “lebih kecil” dibandingkan dengan LLM. SLM dilatih pada 10 miliar parameter, sementara LLM dilatih pada 100-an miliar parameter. Lebih penting lagi, SLM dilatih pada data yang berkaitan dengan domain tertentu. SLM mungkin tidak memiliki informasi kontekstual yang luas, tetapi berkinerja sangat baik dalam domain pilihan. 

Karena ukurannya yang lebih kecil, model ini dapat di-host di pusat data perusahaan alih-alih cloud. SLM bahkan dapat berjalan pada satu chip GPU dalam skala besar, menghemat ribuan dolar dalam biaya komputasi tahunan. Namun, penggambaran antara apa yang hanya dapat dijalankan di cloud atau di pusat data perusahaan menjadi kurang jelas dengan kemajuan dalam desain chip.

Entah itu karena biaya, privasi data atau kedaulatan data, perusahaan mungkin ingin menjalankan SLM ini di pusat data mereka. Sebagian besar perusahaan tidak suka mengirim data mereka ke cloud. Alasan utama lainnya adalah kinerja. Gen AI di tepi melakukan perhitungan dan inferensi sedekat mungkin dengan data, membuatnya lebih cepat dan lebih aman daripada melalui penyedia cloud.

Perlu dicatat bahwa SLM membutuhkan daya komputasi yang lebih sedikit dan ideal untuk penerapan di lingkungan yang terbatas sumber daya dan bahkan pada perangkat mobile.

Contoh lokal mungkin lokasi IBM® Cloud Satellite, yang memiliki koneksi berkecepatan tinggi yang aman ke IBM Cloud yang menghosting LLM. Perusahaan telekomunikasi dapat meng-host SLM ini di stasiun pangkalan mereka dan menawarkan opsi ini kepada klien mereka juga. Ini semua masalah mengoptimalkan penggunaan GPU, karena jarak yang harus ditempuh data berkurang, menghasilkan peningkatan bandwidth.

Seberapa kecil modelnya bisa dibuat?

Kembali ke pertanyaan awal untuk dapat menjalankan model-model ini di mobile. Perangkat seluler mungkin ponsel kelas atas, mobil atau bahkan robot. Produsen perangkat telah menemukan bahwa bandwidth yang signifikan diperlukan untuk menjalankan LLM. LLM kecil adalah model ukuran lebih kecil yang dapat dijalankan secara lokal di mobile dan perangkat medis.

Pengembang menggunakan teknik seperti adaptasi peringkat rendah untuk membuat model ini. Mereka memungkinkan pengguna untuk melakukan penyempurnaan model ke persyaratan unik sambil menjaga jumlah parameter yang dapat dilatih relatif rendah. Bahkan, bahkan ada proyek TinyLlama di GitHub.

Produsen chip sedang mengembangkan chip yang dapat menjalankan versi LLM yang dipangkas melalui difusi gambar dan distilasi pengetahuan. System-on-chip (SOC) dan neuro-processing unit(NPU) membantu perangkat edge dalam menjalankan tugas-tugas gen AI.

Sementara beberapa konsep ini belum diproduksi, arsitek solusi harus mempertimbangkan apa yang mungkin saat ini. SLM yang bekerja dan berkolaborasi dengan LLM mungkin merupakan solusi yang layak. Perusahaan dapat memutuskan untuk menggunakan model AI khusus yang lebih kecil yang ada untuk industri mereka atau membuatnya sendiri untuk memberikan pengalaman pelanggan yang dipersonalisasi.

Apakah AI hybrid jawabannya?

Meskipun menjalankan SLM lokal tampaknya praktis dan LLM kecil di perangkat mobile menarik, bagaimana jika model tersebut membutuhkan kumpulan data yang lebih besar untuk menanggapi beberapa prompt? 

Komputasi hybrid cloud menawarkan yang terbaik dari kedua dunia. Mungkinkah hal yang sama diterapkan pada model AI?

Ketika model yang lebih kecil gagal, model AI hybrid dapat memberikan opsi untuk mengakses LLM di cloud publik. Masuk akal untuk mengaktifkan teknologi semacam itu. Ini akan memungkinkan perusahaan untuk menjaga data mereka tetap aman di dalam tempat mereka dengan menggunakan SLM khusus domain, dan mereka dapat mengakses LLM di cloud publik bila diperlukan. Karena perangkat mobile dengan SOC menjadi lebih mampu, ini sepertinya cara yang lebih efisien untuk mendistribusikan beban kerja AI generatif.

IBM® baru-baru ini mengumumkan ketersediaan sumber terbuka Mistral model AI pada platform Watson mereka. LLM yang ringkas ini membutuhkan lebih sedikit sumber daya untuk dijalankan, tetapi sama efektifnya dan memiliki kinerja yang lebih baik dibandingkan dengan LLM tradisional. IBM® juga merilis model Granite 7B sebagai bagian dari keluarga model dasar yang sangat dikurasi dan dapat dipercaya.

Menurut pendapat kami, perusahaan harus fokus membangun model kecil khusus domain dengan data perusahaan internal untuk membedakan kompetensi inti mereka dan menggunakan insight dari data mereka (daripada berani membangun LLM generik mereka sendiri, yang dapat mereka akses dengan mudah dari beberapa penyedia).

Lebih besar tidak selalu lebih baik

Perusahaan telekomunikasi adalah contoh utama perusahaan yang akan mendapat manfaat dari mengadopsi model AI hybrid ini. Mereka memiliki peran unik, karena mereka dapat menjadi konsumen dan penyedia. Skenario serupa mungkin berlaku untuk perawatan kesehatan, rig minyak, perusahaan logistik dan industri lainnya. Apakah perusahaan telekomunikasi siap memanfaatkan gen AI dengan baik? Kita tahu mereka memiliki banyak data, tetapi apakah mereka memiliki model deret waktu yang sesuai dengan data?

Dalam hal model AI, IBM memiliki strategi multimodel untuk mengakomodasi setiap contoh penggunaan yang unik. Lebih besar tidak selalu lebih baik, karena model khusus mengungguli model tujuan umum dengan persyaratan infrastruktur yang lebih rendah.

 

Penulis

Ashok Iyengar

Executive Cloud Architect

Praneet Adusumilli

Distributed Infrastructure and Network Management Research

Master Inventor

Solusi terkait
Model dasar

Jelajahi perpustakaan model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.

Temukan watsonx.ai Jelajahi model AI IBM Granite