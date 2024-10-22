Rilis ChatGPT 2 tahun lalu membuka babak baru dalam AI, didorong oleh model bahasa besar dengan ukuran dan kompleksitas yang belum pernah terjadi sebelumnya. Model-model ini sekarang menjadi kekuatan utama dalam riset dan bisnis, tetapi banyak dari mereka tidak merilis data mereka, resep perdagangan lengkap, atau pos pemeriksaan mereka. Di situlah organisasi nirlaba Allen Institute for Artificial Intelligence (Ai2) masuk. Ai2 dimulai pada tahun 2014, didirikan oleh salah satu pendiri Microsoft Paul Allen. Kelompok riset ini bekerja pada model bahasa, model multimodal, dan kerangka kerja evaluasi dalam sumber terbuka.
Baru-baru ini, Ai2 merilis Molmo, keluarga model AI multimodal canggih yang bertujuan untuk secara signifikan menutup kesenjangan antara sistem terbuka dan berpemilik. “Bahkan model kami yang lebih kecil mengungguli pesaing 10x ukurannya,” kata Ai2.
Sebelumnya pada bulan September, Ai2 merilis OlmoE, campuran model pakar dengan 1 miliar parameter aktif dan 7 miliar total parameter yang dikembangkan bersama dengan AI Kontekstual. Itu dilatih pada 5 triliun token dan dibangun di atas campuran data baru yang menggabungkan pelajaran dari Dolma Ai2.
Kami berbicara dengan Hanna Hajishirzi, Direktur Senior Penelitian NLP di Ai2, setelah keynote di Konferensi PyTorch di San Francisco untuk membahas model sumber terbuka dan literasi AI.
Kami melakukan rilis kecil untuk OlmoE pada bulan September. Meskipun merupakan model kecil, OlmoE berkinerja sangat baik pada banyak tugas. Sejak itu, kami telah melihat sambutan yang luar biasa dari masyarakat. Kami juga telah membuat aplikasi yang menjalankan model bahasa secara langsung di smartphone tanpa terhubung ke GPU. Ini masih dalam proses—kami sedang mengerjakan fitur keselamatan dan meningkatkan UI—tetapi ini menarik. Kami juga bekerja untuk melatih model yang lebih besar.
Tidak mengherankan jika campuran model pakar bekerja dengan baik karena kita telah melihat mereka termasuk dalam model perbatasan. Manfaat dari campuran pakar adalah bahwa dengan upaya pelatihan yang sama, Anda mendapatkan akurasi yang lebih tinggi dibandingkan dengan model padat. Yang menarik bagi kami adalah membawa ini ke ekstrem dan melatih model terkecil yang kami bisa, seperti model 1 miliar parameter, untuk melihat apa yang terjadi. Kami sangat antusias dengan hasilnya.
Jadi bagaimana kita sampai di sana? Pertama, kami meningkatkan jalur pelatihan kami. Kami mulai dengan arsitektur model padat, melakukan beberapa percobaan yang berhasil memperluasnya ke campuran model pakar. Kedua, kami melakukan perbaikan pada bauran data kami, yang mengarah ke model yang lebih baik. Bersama-sama, kedua hal ini memberi kami hasil terbaik.
Ada berbagai keterbukaan dalam komunitas AI. Misalnya, model seperti ChatGPT OpenAI telah membuka API mereka, tetapi siapa yang tahu apa yang terjadi di balik pintu tertutup?
Semuanya tampak sangat mewah, tetapi kurangnya transparansi ini adalah kebalikan dari mempromosikan literasi AI. Publik tidak memiliki pemahaman nyata tentang mengapa model-model ini berperilaku seperti yang mereka lakukan. Semuanya terasa seperti sihir karena model-model ini tampaknya menjadi lebih baik.
Komunitas AI perlu mulai merilis lebih banyak informasi tentang model buram dan menjelaskan mengapa mereka memberikan jawaban tertentu. Misalnya, mereka dapat menjelaskan bahwa model merespons dengan cara tertentu karena menemukan pola tertentu dalam data pelatihannya.
Mendidik masyarakat tentang hal ini sangat penting. Meskipun sulit untuk menghubungkan keputusan spesifik ke titik data dengan cara yang mudah dipahami publik, membuat demo yang menampilkan proses ini akan sangat berdampak.
Tepat! Itulah fokus penting dari proyek kami: kami bertujuan untuk merilis bobot model dan data pelatihan.
Menggunakan model OLMo dan OLMoE kami, para peneliti di komunitas sedang mengerjakan bagaimana keputusan model terhubung ke data. Kumpulan data terbuka kami, Dolma telah memungkinkan peneliti untuk menganalisisnya, yang mengarah ke publikasi yang menjelaskan bagaimana titik data tertentu berkontribusi pada perilaku model. Transparansi ini juga akan membantu menginformasikan publik.
Saya dapat membahas ini dari dua perspektif. Pertama, ketika kami memulai proyek ini, kami mempertanyakan validitas angka yang dilaporkan oleh beberapa perusahaan. Kami ingin memastikan bahwa angka-angka tersebut tidak berasal dari set tes selektif atau tolok ukur. Ini menyoroti tingkat kepercayaan dalam komunitas peneliti.
Untuk model kami, ini mudah, karena kami menyediakan akses ke data kami dan menunjukkan bagaimana model kami dievaluasi. Transparansi ini memperjelas apa yang ada dalam data dan bagaimana model dilatih. Kami juga merilis berbagai pos pemeriksaan, yang merupakan tahap pelatihan menengah. Para peneliti dapat menggunakan pos pemeriksaan ini untuk mengamati bagaimana pengetahuan dan peningkatan berkembang dari waktu ke waktu. Dan beberapa peneliti telah memanfaatkan titik pemeriksaan kami untuk mempelajari evolusi ini.
Akhirnya, dalam hal kepercayaan publik, pendekatan serupa berlaku. Banyak orang percaya bahwa model bahasa hanya berhalusinasi. Dengan menghubungkan output mereka ke data pelatihan dan menjelaskan proses pengambilan keputusan, kami dapat meningkatkan kepercayaan. Meskipun kami belum melakukannya, meningkatkan transparansi tentang data pelatihan kami menawarkan peluang signifikan untuk membangun kepercayaan publik.
Saya percaya AI sumber terbuka sangat penting untuk mengaktifkan dan mempercepat ilmu model bahasa. Kami telah membuat begitu banyak kemajuan dalam penelitian dan pengembangan dalam model bahasa karena penelitian ilmiah yang terbuka, dan kami harus terus melakukan upaya untuk menjaga AI open source tetap aktif.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.