AI sumber terbuka mengacu pada sistem kecerdasan buatan yang dapat digunakan, diuji, diubah, dan didistribusikan untuk tujuan apa pun, tanpa harus meminta izin.
Kebebasan ini sejalan dengan definisi AI sumber terbuka yang ditetapkan oleh Open Source Initiative (OSI), yang secara global dianggap sebagai pengawas prinsip dan kebijakan sumber terbuka.1
Munculnya AI generatif membantu mengatalisasi era AI sumber terbuka. Menurut sebuah laporan oleh Economist Impact, dua pertiga dari model bahasa besar (LLM)— kategori model dasar yang biasa digunakan untuk membuat aplikasi gen AI seperti chatbot dan asisten pengodean—yang dirilis pada tahun 2023 adalah sumber terbuka.2
Agar perangkat lunak dianggap sebagai sumber terbuka, siapa pun harus dapat menggunakan, mempelajari, memodifikasi, dan mendistribusikan kembali kode sumbernya sesuai keinginan mereka dan biasanya tanpa biaya. Namun, cakupan AI sumber terbuka jauh lebih luas daripada perangkat lunak sumber terbuka.
Sistem AI tidak hanya mencakup model AI itu sendiri, tetapi juga kumpulan data yang digunakan selama pelatihan, bobot dan parameter model, serta kode sumber. Kode sumber ini mencakup kode untuk memfilter dan memproses data pelatihan, kode untuk pelatihan dan pengujian model, pustaka pendukung apa pun, dan kode inferensi untuk menjalankan model. Semua komponen ini harus dipatuhi dan disediakan di bawah persyaratan AI sumber terbuka.
Definisi AI sumber terbuka OSI memungkinkan pengecualian data pelatihan non-publik yang tidak dapat dibagikan, seperti informasi identifikasi pribadi (PII).3 Untuk jenis data ini, deskripsi terperinci harus diberikan, termasuk asal, karakteristik dan ruang lingkupnya, bagaimana data dikumpulkan dan dipilih, prosedur pelabelan apa pun dan metode pemrosesan dan penyaringan data.4
Bobot adalah parameter utama dari model yang telah dilatih sebelumnya. Mereka dipelajari selama pelatihan dan menentukan bagaimana model menafsirkan data baru dan membuat prediksi.
Bobot terbuka dibagikan secara publik dan biasanya tersedia di bawah lisensi sumber terbuka, memberikan gambaran sekilas tentang status akhir model pembelajaran mendalam. Dan meskipun mereka menandakan kemajuan bertahap menuju transparansi dalam AI, bobot terbuka masih belum menawarkan gambaran lengkap seperti yang ditawarkan AI sumber terbuka. Tanpa data pelatihan atau kode pelatihan, orang lain tidak dapat mempelajari atau membuat ulang proses pelatihan.
Menurut sebuah studi IBM® baru-baru ini, lebih dari 80% pengambil keputusan TI yang disurvei melaporkan bahwa setidaknya seperempat platform atau solusi AI perusahaan mereka didasarkan pada sumber terbuka. Dan perusahaan yang memanfaatkan ekosistem sumber terbuka lebih cenderung mencapai ROI positif daripada yang tidak.
Selain mendorong ROI, AI sumber terbuka menawarkan keuntungan utama ini:
● Aksesibilitas
● Inovasi kolaboratif
● Efisiensi biaya
● Kustomisasi
● Transparansi
AI sumber terbuka memecah hambatan masuk, terutama bagi mereka yang baru di lapangan. AI ini juga menyediakan akses ke organisasi yang tidak dapat menginvestasikan sumber daya keuangan yang signifikan pada pengembangan AI, seperti bisnis kecil atau perusahaan tanpa keahlian khusus.
Komunitas adalah inti dari sumber terbuka, dengan pengembang AI, peneliti, organisasi, dan pemangku kepentingan lainnya bekerja sama untuk terus meningkatkan teknologi AI. Upaya kolektif ini mengarah pada pembelajaran dan berbagi, membuka peluang untuk membangun karya orang lain dan memacu inovasi.
Model AI sumber terbuka umumnya gratis untuk digunakan. Hal ini memungkinkan perusahaan untuk menghemat biaya awal untuk mengembangkan dan melatih model mereka sendiri atau mendapatkannya dari penyedia sumber tertutup dengan harga berlangganan atau biaya lisensi tinggi.
Organisasi dapat mengubah sistem AI sumber terbuka sesuai persyaratan mereka yang memberikan kontrol yang lebih besar. Mereka dapat menyesuaikan sistem ini dengan kebutuhan khusus dan contoh penggunaan mereka, menyempurnakan model AI sumber terbuka pada data bisnis mereka sendiri, dan mengoptimalkan semua model ini untuk berbagai tugas tertentu.
Sifat terbuka AI sumber terbuka menumbuhkan transparansi AI. Mengetahui bagaimana sistem AI dibangun dan dilatih dan bagaimana sistem ini membuat keputusan membantu menanamkan keyakinan dan kepercayaan, terutama untuk industri di mana hasil AI dapat memengaruhi kehidupan, seperti perawatan kesehatan, sumber daya manusia, dan sistem peradilan.
Transparansi ini juga lebih memudahkan penentuan bug, mengidentifikasi bias, dan mendeteksi kelemahan keamanan yang harus diatasi oleh pengembang AI dengan cepat. Selain itu, visibilitas tentang cara kerja internal AI sumber terbuka memungkinkan auditabilitas yang lebih baik oleh pembuat kebijakan di berbagai sektor, seperti pemerintah dan keuangan, di mana kepatuhan terhadap peraturan adalah hal terpenting.
Meskipun banyak manfaatnya, AI sumber terbuka hadir dengan keterbatasan. Berikut adalah beberapa tantangan yang terkait dengan AI sumber terbuka:
● Kurangnya dukungan khusus atau tepat waktu
● Kemungkinan penyalahgunaan
● Kerentanan keamanan
Tidak seperti model berpemilik, model AI sumber terbuka tidak sering menetapkan waktu respons untuk masalah mendesak, tim dukungan khusus untuk membantu menyelesaikan masalah, atau jadwal yang konsisten untuk merilis tambalan keamanan atau pembaruan. Perusahaan harus berkomitmen untuk memantau aplikasi AI mereka dan membuat prosedur dukungan mereka sendiri.
Karena siapa pun dapat menggunakan AI sumber terbuka untuk apa pun tujuan mereka, ia memiliki potensi untuk digunakan untuk tujuan jahat. Aktor ancaman dapat menerapkan AI sumber terbuka untuk mengotomatiskan serangan siber, menghasilkan deepfake atau menyebarkan informasi yang salah dan disinformasi.
Meskipun AI sumber terbuka transparan, visibilitasnya mengekspos kerentanan keamanan yang dapat dieksploitasi pelaku jahat. Sekali lagi, tanggung jawab dibebankan pada organisasi untuk membangun batasan di sekitar solusi AI sumber terbuka mereka.
Ada banyak model AI sumber terbuka, yang sebagian besar dapat diakses di Hugging Face atau melalui repositori GitHub mereka. Berikut adalah beberapa yang populer:
● Amber
● Crystal
● DeepSeek-R1
● Falcon-7B dan Falcon-40B
● Granite
● OLMo
● Pythia
● Qwen
● T5
Amber adalah model bahasa berbahasa Inggris dengan 7 miliar parameter yang dikembangkan oleh LLM360, sebuah inisiatif untuk AI milik komunitas melalui riset dan pengembangan model besar sumber terbuka. Amber didasarkan pada arsitektur Llama dari Meta dan tersedia di bawah lisensi Apache 2.0. Menurut OSI, Amber mematuhi definisi AI sumber terbuka dari OSI.1
Crystal adalah model bahasa besar lainnya dari LLM360 dengan parameter berukuran 7 miliar. Model ini dirilis di bawah lisensi Apache 2.0 dan unggul dalam menyeimbangkan tugas pengodean dan pemrosesan bahasa alami (NLP). Menurut OSI, Crystal mematuhi definisi AI sumber terbuka dari OSI.1
DeepSeek-R1 adalah model penalaran dari perusahaan rintisan AI asal Tiongkok, DeepSeek. Solusi ini menggunakan arsitektur machine learning Mixture of Experts (MoE) dan dilatih menggunakan pembelajaran penguatan berskala besar untuk menyempurnakan kemampuan penalarannya. Ini tersedia di bawah lisensi MIT.
Falcon-7B dan Falcon-40B adalah model khusus dekoder kausal dengan parameter masing-masing 7 dan 40 miliar. Dikembangkan oleh para peneliti di Technology Innovation Institute (TII) Uni Emirat Arab, kedua model tersebut dilatih pada RefinedWeb milik TII sendiri, sebuah kumpulan data sangat besar yang berisi data web berbahasa Inggris yang telah difilter. Falcon-7B dan Falcon-40B tersedia di bawah lisensi Apache 2.0.
IBM® Granite adalah serangkaian model AI multimodal yang siap untuk perusahaan. Mereka dibangun di atas fondasi kumpulan data instruksi sumber terbuka dengan lisensi permisif bersama kumpulan data sintetis yang dikurasi secara internal. Model ini tersedia di bawah lisensi Apache 2.0.
Model dasar Granite terdiri dari model bahasa kecil dengan kemampuan penalaran yang dirancang untuk alur kerja agen, model visi yang mengkhususkan diri pada tugas visi untuk pemahaman dokumen dan gambar, model ucapan untuk pengenalan dan penerjemahan ucapan otomatis, dan model kode untuk tugas generatif kode.
OLMo adalah keluarga model bahasa dari Ai2, sebuah lembaga riset AI nirlaba. Model datang dalam ukuran parameter 1, 7, 13 ,dan 32 miliar. Model, kode pelatihan, rangkaian evaluasi untuk mereproduksi hasil OLMo dan data pelatihan yang digunakan di setiap fase—termasuk pra-pelatihan, pelatihan tengah, dan pasca-pelatihan— semuanya tersedia secara bebas di bawah lisensi Apache 2.0. Menurut OSI, OLMo mematuhi definisi AI sumber terbuka OSI.1
Dikembangkan oleh lab riset nirlaba EleutherAI, Pythia adalah serangkaian LLM dengan parameter berukuran mulai dari 14 juta hingga 12 miliar dan dirilis di bawah lisensi Apache 2.0. Semua data, kode, model, dan titik pemeriksaan terkait tersedia untuk umum, bersama dengan instruksi untuk mereplikasi pelatihan, dengan tujuan untuk memajukan kemampuan interpretasi AI, etika AI, dan transparansi. Menurut OSI, Pythia mematuhi definisi AI sumber terbuka dari OSI.1
Qwen adalah serangkaian LLM dari perusahaan komputasi cloud Tiongkok, Alibaba Cloud. Qwen mencakup model bahasa, model bahasa visi, dan varian yang dioptimalkan untuk audio, pengodean, dan matematika. Sebagian besar model Qwen tersedia di bawah lisensi Apache 2.0, meskipun model yang lebih besar memiliki lisensi eksklusif.
T5 adalah model transformator transfer teks ke teks yang dikembangkan oleh peneliti di Google. Model ini unggul dalam beragam tugas NLP dan dirilis di bawah lisensi Apache 2.0. Menurut OSI, T5 mematuhi definisi AI sumber terbuka dari OSI.1
OSI juga telah menganalisis Llama 2 dari Meta, Phi-2 dari Microsoft, Mixtral dari Mistral, serta Grok dari xAI, dan menyimpulkan bahwa semua model ini tidak mematuhi definisi AI sumber terbuka dari OSI “karena mereka tidak memiliki komponen yang diperlukan dan/atau perjanjian hukum mereka tidak sesuai dengan prinsip sumber terbuka.”1
Bekerja pada proyek AI sumber terbuka bisa menjadi luar biasa. Berikut adalah beberapa alat AI sumber terbuka terkenal yang dapat membantu:
● Keras
● OpenCV
● PyTorch
● Scikit-learn
● TensorFlow
Keras adalah antarmuka pemrograman aplikasi (API) yang ditulis dalam bahasa Python untuk membangun, melatih, dan mengevaluasi model pembelajaran mendalam. API ini kompatibel dengan dan dapat berjalan di atas kerangka kerja JAX, PyTorch, atau TensorFlow.
OpenCV adalah pustaka visi komputer sumber terbuka yang dioperasikan oleh Open Source Vision Foundation. Pustaka ini menampung lebih dari 2.500 algoritma yang dioptimalkan untuk aplikasi visual real-time, termasuk pengenalan gambar, klasifikasi gambar, deteksi objek, dan pelacakan objek.
PyTorch adalah kerangka kerja yang awalnya dikembangkan oleh Meta dan sekarang bagian dari Linux Foundation. Ini mendukung neural networks dinamis dan akselerasi GPU, terintegrasi dengan lancar dengan perpustakaan dan paket Python, menawarkan antarmuka yang intuitif dan memiliki overhead kerangka kerja minimal.
Scikit-learn adalah modul Python untuk machine learning. Pustaka ini menampilkan antara lain algoritma untuk klasifikasi, klaster, dan regresi, dan menawarkan alat untuk pemrosesan data, pemilihan model, serta evaluasi dan pembuatan visualisasi.
TensorFlow adalah platform untuk membangun dan menerapkan model machine learning. Dibuat oleh Google, TensorFlow berisi pustaka kumpulan data dan model, API untuk berbagai bahasa pemrograman, dan alat untuk mengoptimalkan alur kerja machine learning. Platform ini juga memiliki komunitas sumber terbuka yang kuat dan membantu orang membangun keahlian machine learning mereka melalui buku, kurikulum yang dikurasi, dan kursus online.
1 The Open-Source AI Definition 1.0, Open Source Initiative, Diakses 12 Mei 2025
2 Penyediaan sumber terbuka revolusi AI, Economist Impact, 2024
3 Jawaban untuk pertanyaan yang sering diajukan, Inisiatif Sumber terbuka, 29 Oktober 2024
4 The Open Source AI Definition – 1.0, Open Source Initiative, Diakses 12 Mei 2025