Kami berdiri di garis depan revolusi AI. Selama dekade terakhir, pembelajaran mendalam muncul dari tabrakan seismik ketersediaan data dan kekuatan komputasi, memungkinkan sejumlah kemampuan AI yang mengesankan. Namun, kami menghadapi tantangan yang paradoksal: otomatisasi bersifat padat karya. Kedengarannya seperti lelucon, tetapi sebenarnya tidak, seperti yang mungkin diketahui siapa pun yang telah mencoba memecahkan masalah bisnis dengan AI.
Alat AI tradisional, meskipun kuat, bisa mahal, memakan waktu, dan sulit digunakan. Data harus dikumpulkan, dikurasi, dan diberi label dengan anotasi khusus tugas untuk melatih model AI. Membangun model membutuhkan keterampilan khusus yang sulit ditemukan — dan setiap tugas baru membutuhkan pengulangan proses. Akibatnya, bisnis berfokus terutama pada mengotomatisasi tugas dengan data yang melimpah dan nilai bisnis yang tinggi, meninggalkan semua yang lain di atas meja. Tapi ini mulai berubah.
Munculnya transformator dan metode pembelajaran yang diawasi sendiri telah memungkinkan kita untuk memanfaatkan sejumlah besar data tanpa label, membuka jalan bagi model besar yang telah dilatih sebelumnya, kadang-kadang disebut “model dasar.” Model-model besar ini telah menurunkan biaya dan tenaga kerja yang terlibat dalam otomatisasi.
Model dasar memberikan fondasi yang kuat dan serbaguna untuk berbagai aplikasi AI. Kita dapat menggunakan model dasar untuk menyelesaikan tugas dengan cepat meski hanya memiliki sedikit data beranotasi dan upaya yang minimal; dalam beberapa kasus, kita hanya perlu menjelaskan tugas tersebut agar model dapat menyelesaikannya.
Namun, teknologi-teknologi yang kuat ini juga membawa risiko dan tantangan baru bagi perusahaan. Banyak model saat ini dilatih menggunakan kumpulan data yang kualitas dan asal-usulnya tidak jelas, sehingga menghasilkan respons yang ofensif, bias, atau tidak akurat secara fakta. Model-model terbesar membutuhkan biaya tinggi, menghabiskan banyak energi untuk dilatih dan dijalankan, serta rumit untuk diterapkan.
Kami di IBM telah mengembangkan sebuah pendekatan yang menjawab tantangan-tantangan utama dalam menggunakan model dasar untuk perusahaan. Hari ini, kami mengumumkan watsonx.ai, langkah awal IBM untuk alat dan teknologi AI terbaru di pasar saat ini. Sebagai bukti seberapa cepat bidang ini berkembang, ada beberapa alat baru yang usianya baru beberapa minggu, dan sejumlah alat baru juga dirilis sembari Anda membaca kalimat ini.
Isi dari watsonx.ai — bagian dari penawaran watsonx IBM® yang lebih besar yang diumumkan minggu ini — bervariasi, dan akan Lanjutkan berkembang, tetapi janji menyeluruh kami adalah sama: untuk menyediakan produk otomatisasi yang aman dan siap untuk perusahaan.
Ini adalah bagian dari upaya berkelanjutan kami di IBM untuk mempercepat perjalanan pelanggan kami demi mendapatkan nilai dari paradigma baru dalam AI ini. Di sini, saya akan menjelaskan upaya kami untuk membangun rangkaian model dasar kelas enterprise yang dilatih oleh IBM, termasuk pendekatan kami terhadap arsitektur data dan model. Saya juga akan menguraikan portofolio dan alat baru kami yang memungkinkan perusahaan untuk membangun dan menerapkan solusi berbasis model dasar menggunakan katalog model sumber terbuka yang luas, selain milik kami sendiri.
Kualitas data itu penting. Model AI yang dilatih pada data bias atau beracun secara alami akan cenderung menghasilkan output yang bias atau beracun. Masalah ini diperparah di era model dasar, di mana data yang digunakan untuk melatih model biasanya berasal dari banyak sumber dan sangat berlimpah sehingga tidak ada manusia yang dapat secara wajar menyisir semuanya.
Karena data adalah bahan bakar yang mendorong model dasar, kami di IBM® telah berfokus pada kurasi dengan cermat segala sesuatu yang masuk ke dalam model kami. Kami telah mengembangkan alat AI untuk menyaring data kami secara agresif untuk kebencian dan kata-kata kotor, pembatasan lisensi, dan bias. Ketika data yang tidak pantas teridentifikasi, kami menghapusnya, melatih ulang model, dan mengulangi prosesnya.
Kurasi data adalah tugas yang tidak pernah benar-benar selesai. Kami terus mengembangkan dan menyempurnakan metode baru untuk meningkatkan kualitas dan kontrol data, untuk memenuhi serangkaian persyaratan hukum dan peraturan yang terus berkembang. Kami telah membangun kerangka kerja end-to-end untuk melacak data mentah yang telah dibersihkan, metode yang digunakan, dan model yang disentuh oleh setiap titik data.
Kami terus mengumpulkan data berkualitas tinggi untuk membantu mengatasi beberapa tantangan bisnis yang paling mendesak di berbagai domain seperti keuangan, hukum, keamanan siber, dan keberlanjutan. Saat ini kami menargetkan lebih dari 1 terabyte teks yang dikurasi untuk melatih model dasar kami, sambil menambahkan kode perangkat lunak yang dikurasi, data satelit, dan data dan log peristiwa jaringan TI.
IBM® Research juga mengembangkan teknik untuk menanamkan kepercayaan di seluruh siklus hidup model dasar, untuk mengurangi bias dan meningkatkan keamanan model. Pekerjaan kami di bidang ini termasuk FairIJ, yang mengidentifikasi titik data berat sebelah dalam data yang digunakan untuk tuning model, sehingga mereka dapat diedit. Metode lain, seperti pemrograman ulang keadilan, memungkinkan kita untuk mengurangi bias dalam model bahkan setelah dilatih.
Studio watsonx.ai IBM® yang baru menawarkan rangkaian model dasar yang ditujukan untuk memberikan nilai perusahaan. Mereka telah dimasukkan ke dalam berbagai produk IBM® yang akan tersedia untuk pelanggan IBM® dalam beberapa bulan mendatang.
Menyadari bahwa satu ukuran tidak cocok untuk semua, kami membangun keluarga model dasar bahasa dan kode dengan ukuran dan arsitektur yang berbeda. Setiap keluarga model memiliki nama kode bertema geologi — Granite, Sandstone, Obsidian, dan Slate — yang menyatukan inovasi mutakhir dari IBM® Research dan komunitas riset terbuka. Setiap model dapat disesuaikan untuk berbagai tugas perusahaan.
Model Granite kami didasarkan pada arsitektur seperti GPT khusus decoder untuk tugas-tugas generatif. Model Sandstone menggunakan arsitektur encoder-decoder dan sangat cocok untuk menyempurnakan tugas-tugas tertentu, dapat digunakan secara bergantian dengan model T5 Google yang populer. Model Obsidian menggunakan arsitektur modular baru yang dikembangkan oleh IBM Research, untuk menghadirkan efisiensi inferensi dan tingkat kinerja yang tinggi di berbagai tugas. Slate mengacu pada kelompok model encoder saja (berbasis Roberta), yang meskipun tidak generatif, bekerja cepat dan efektif untuk banyak tugas NLP perusahaan. Semua model watsonx.ai dilatih pada data lake IBM yang dikurasi dan berfokus pada perusahaan, di superkomputer AI cloud-native kami yang dirancang khusus, Vela.
Efisiensi dan keberlanjutan adalah prinsip desain inti untuk watsonx.ai. Di IBM® Research , kami telah menemukan teknologi baru untuk pelatihan model yang efisien, termasuk algoritma “LiGO” yang mendaur ulang model kecil dan “menumbuhkannya” menjadi yang lebih besar. Metode ini dapat menghemat dari 40% hingga 70% dari waktu, biaya, dan output yang diperlukan untuk melatih model. Untuk meningkatkan kecepatan inferensi, kami memanfaatkan keahlian mendalam kami dalam kuanti sasi, atau menyusutkan model dari aritmatika titik mengambang 32 titik ke format bit integer yang jauh lebih kecil. Mengurangi presisi model AI membawa manfaat efisiensi besar tanpa mengorbankan akurasi. Kami berharap dapat segera menjalankan model terkompresi ini pada chip yang dioptimalkan untuk AI, IBM® AIU.
Bagian terakhir dari teka-teki model dasar adalah membuat perangkat lunak yang mudah digunakan untuk menyempurnakan dan menerapkan model. Tumpukan inferensi hybrid cloud native IBM, dibangun menggunakan RedHat OpenShift, telah dioptimalkan untuk melatih dan melayani model dasar. Perusahaan dapat memanfaatkan fleksibilitas OpenShift untuk menjalankan model dari mana saja, termasuk on premises.
Kami telah membuat rangkaian alat di watsonx.ai yang menyediakan pelanggan dengan antarmuka pengguna yang ramah pengguna dan pustaka ramah pengembang untuk membangun solusi berbasis model dasar. Prompt Lab kami memungkinkan pengguna untuk melakukan tugas AI dengan cepat hanya dengan beberapa contoh berlabel. Tuning Studio memungkinkan penyesuaian model yang cepat dan kuat menggunakan data Anda sendiri, berdasarkan teknik fine tuning efisien canggih yang dikembangkan oleh IBM® Research.
Selain model IBM sendiri, watsonx.ai menyediakan akses tanpa batas ke katalog luas model sumber terbuka bagi perusahaan untuk bereksperimen dan mengulangi dengan cepat. Dalam kemitraan baru dengan Hugging Face, IBM akan menawarkan ribuan model dasar sumber terbuka Hugging Face, kumpulan data, dan perpustakaan di watsonx.ai. Hugging Face, pada gilirannya, akan menawarkan semua model dan alat bantu milik IBM dan akses terbuka di watsonx.ai.
Untuk mencoba model baru, cukup pilih dari menu drop-down. Anda dapat mempelajari studio lebih lanjut di sini.
Model dasar mengubah lingkungan AI, dan kemajuan dalam beberapa tahun terakhir semakin cepat. Kami di IIBM® sangat antusias untuk membantu memetakan batas-batas bidang yang berkembang pesat ini dan menerjemahkan inovasi menjadi nilai perusahaan yang nyata.
