Library Machine Learning Teratas

Penulis

Staff Writer

IBM Think

Apa itu library machine learning?

Library machine learning adalah potongan kode ("library") yang sudah jadi yang berguna untuk proyek machine learning. Karena upaya machine learning (ML) secara andal melibatkan jenis tugas tertentu yang umum dilakukan dalam kecerdasan buatan, hal ini menghemat waktu untuk bekerja dengan algoritma yang dibangun dan diseleksi sebelumnya dan dan alat bantu lainnya.

Sebagian besar library ML terdiri dari modul, memungkinkan pengembang untuk mencampur dan mencocokkan saat mereka membangun pipeline ML yang menangani prapemrosesan, pelatihan, metrik validasi, dan tugas lainnya. Library-library ini sering kali bersifat sumber terbuka dan gratis untuk digunakan, dan ada banyak pilihan: satu halaman Github mengumpulkan hampir 1000 perpusatkaan ML dalam bahasa pemrograman Python saja.l (Python telah muncul sebagai bahasa machine learning yang dominan—meskipun proyek ML juga muncul dalam JavaScript, R dan bahasa lainnya).

Ada library untuk semua jenis aplikasi. Transformator Hugging Face memberikan akses mudah ke model transformator yang telah dilatih sebelumnya. Library seperti Stable-Baselines3 mendukung pembelajaran penguatan. Library machine learning dapat dikelompokkan menjadi dua kategori utama. Library umum yang berfungsi sebagai kerangka kerja untuk proyek machine learning. Library khusus dapat digunakan untuk tahap atau komponen tertentu dari proyek ML.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Library machine learning umum

Library machine learning yang umum—kadang-kadang disebut "kerangka kerja" atau "platform inti"—jumlahnya mencapai puluhan. Tetapi empat sangat populer, secara rutin menduduki puncak daftar “terbaik”: TensorFlow (dan Keras yang terkait erat), PyTorch, dan scikit-learn. Masing-masing memiliki kelebihan yang sedikit berbeda, tergantung kebutuhan proyek atau tim.

NumPy
Tensorflow
Keras
Pytorch
Scikit-learn

NumPy

NumPy bukanlah library ML itu sendiri, melainkan library yang menjadi pilar dibangunnya semua library ML. Pada intinya, machine learning adalah menemukan pola dalam sejumlah besar data. NumPy, library yang menciptakan struktur yang dikenal sebagai array n-dimensi, membantu mengatur titik-titik data ini dan menerapkan fungsi matematika padanya (sebuah cabang matematika yang dikenal sebagai aljabar linier). Array n-dimensi atau multidimensi ini—yang merupakan kontainer angka besar yang dapat dimanipulasi—juga kadang-kadang disebut “tensor,” istilah yang sering muncul dalam diskusi library ML. (Array 2 dimensi dikenal sebagai matriks).

Meski NumPy menangani tensor— struktur data inti machine learning —NumPy dalam praktiknya terlalu terbatas untuk tuntutan ML modern yang butuh banyak sumber daya prosesor. Di antara kendala lainnya, NumPy (yang akarnya berasal dari tahun 1990-an) sudah terlalu usang untuk "berkomunikasi" dengan prosesor unit pemrosesan grafis (GPU) canggih yang biasanya dibutuhkan oleh upaya ML komersial (yang disebut "akselerasi GPU"), alih-alih hanya bekerja dengan unit pemrosesan pusat (CPU) yang lebih rendah.

Tensorflow

TensorFlow adalah library ML umum yang awalnya dikembangkan oleh tim Google Brain pada tahun 2015; setelah Google membuat library ini menjadi sumber terbuka, popularitasnya semakin meningkat. TensorFlow dapat bekerja tidak hanya dengan prosesor CPU, tetapi juga GPU dengan kinerja tinggi dan prosesor buatan Google khusus yang disebut unit pemrosesan tensor (TPU).

TensorFlow sangat cocok untuk pembelajaran mendalam, sebuah varian machine learning yang mengandalkan neural network (yang meniru struktur otak). Pembelajaran “mendalam” dinamai demikian karena melibatkan beberapa lapisan antara dan input dan output. Pembelajaran mendalam telah muncul sebagai sesuatu yang berguna dalam aplikasi komersial seperti pemrosesan bahasa alami (NLP), visi komputer, dan pengenalan gambar. Berasal dari Google dan mendukung banyak aplikasi dan produk komersialnya, TensorFlow unggul dalam penerapan skala besar.

Keras

Keras terkait erat dengan TensorFlow; juga dibuat oleh seorang insinyur Google. Ini adalah library yang biasanya digunakan oleh para pengembang yang menginginkan API yang lebih ramah pengguna untuk proyek-proyek ML berbasis TensorFlow. Versi Keras yang dirilis pada tahun 2025 menambahkan dukungan untuk kerangka kerja lain di luar TensorFlow, termasuk PyTorch. Keras juga terkenal dengan dokumentasi ekstensif dan tutorial yang bermanfaat.

Pytorch

PyTorch awalnya dikembangkan oleh para peneliti di Meta pada akhir 2016. Ini adalah port Python dari library Torch yang lebih lama, yang intinya adalah tensor. Pada tahun 2022, saat PyTorch pindah ke Linux Foundation, lebih dari 2.400 kontributor dilaporkan memiliki lebih dari 150.000 proyek menggunakan PyTorch. (Machine learning sumber terbuka adalah paradigma dominan, karena bidang ini berkembang dari kolaborasi yang luas.) Seperti TensorFlow, PyTorch juga memungkinkan pengembang untuk melakukan Operasi seperti Numpy, tetapi menggunakan GPU alih-alih CPU—menjadikan PyTorch kerangka kerja pembelajaran mendalam lainnya.

“PyTorch atau TensorFlow?” sering menjadi pertanyaan awal bagi mereka yang memulai proyek machine learning (Sebelumnya, library bernama Theano juga menjadi pilihan, tetapi tidak digunakan lagi pada tahun 2017). Meskipun tidak ada jawaban yang salah, PyTorch muncul sebagai favorit di antara banyak developer karena desainnya yang fleksibel dan mudah digunakan ("Pythonic") serta kemudahan penggunaannya. Sudah lama disukai di kalangan akademisi dan peneliti, industri juga semakin sering menggunakannya untuk contoh penggunaan yang ambisius dan dapat diskalakan. Autopilot Tesla, misalnya, dibangun menggunakan PyTorch, dan platform komputasi awan Microsoft Azure mendukungnya. PyTorch telah menjadi sangat populer sehingga ekosistem alat pendukung (seperti Torchvision dan TorchText) telah berkembang di sekitarnya. Baik Tensorflow dan Pytorch menggunakan grafik komputasi—struktur data yang mewakili aliran operasi dan variabel selama pelatihan model.

IBM adalah anggota dari PyTorch Foundation; IBM menggunakan PyTorch dengan portofolio watsonx.

Scikit-learn

Scikit-learn (ditulis dengan huruf kecil “scikit-learn,” dan juga dikenal sebagai “sklearn”) adalah library ML dasar lainnya, dirancang untuk berinteraksi dengan NumPy dan library terkait yang populer di kalangan ilmuwan data yang disebut SciPy, yang mendukung komputasi ilmiah. Scikit-learn mencakup sejumlah algoritma ML yang esensinya adalah pengenalan pola. Misalnya, ini termasuk algoritma klasifikasi (seperti yang menilai apakah email spam atau tidak), algoritma regresi (yang mendukung sistem forecasting, peramalan dan rekomendasi) dan algoritma klaster (yang mengelompokkan item serupa bersama-sama). Meskipun scikit-learn adalah tempat yang tepat bagi pemula untuk mempelajari dasar-dasar machine learning—konsep seperti pra-pemrosesan data, saluran pipa data, struktur keputusan, dan pengoptimalan—itu terbatas sebagai mesin untuk pembuatan produk komersial. Seperti NumPy, scikit-learn tidak memiliki akselerasi GPU, yang berarti tidak cocok untuk model pembelajaran mendalam dan tidak dianggap sebagai "library pembelajaran mendalam." Namun demikian, masih berguna sebagai laboratorium untuk menguji ide dan pembuatan prototipe.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Library machine learning khusus

Inti dari model ML apa pun—pada dasarnya, bagian pembelajaran—akan berjalan di salah satu library dasar yang tercantum di atas. Tetapi machine learning adalah upaya multi-tahap yang kompleks, sehingga library telah berevolusi untuk membantu alur kerja yang berkaitan dengan tugas ML tertentu. Selain itu, industri yang berbeda (seperti bidang keuangan atau medis) dan jenis data yang berbeda (seperti gambar atau data audio) cukup berbeda untuk mendapat manfaat dari library ML khusus. Meskipun di luar cakupan artikel ini untuk memeriksa hampir ribuan library sumber terbuka yang dihasilkan dari kerumitan ini, akan sangat membantu jika kita mengilustrasikan beberapa library yang sangat populer.

Untuk analisis data: panda

Pandas adalah library Python utama untuk ilmu data, fungsi inti dalam upaya ML apa pun; seperti banyak library ML, ini dikembangkan dari NumPy. Pandas melangkah lebih jauh dari array NumPy dengan menambahkan struktur yang dikenal sebagai "bingkai data", yang mirip dengan spreadsheet Excel. Struktur tambahan ini memungkinkan untuk melakukan manipulasi data pada kumpulan data besar data dunia nyata.

Untuk visualisasi data: matplotlib dan seaborn

Untuk tujuan mengungkapkan pola dan insight dari data visual, dua library visualisasi data yang populer adalah matplotlib dan seaborn. Yang pertama menghasilkan plot dan grafik, yang kedua berada di atas untuk membuatnya sedikit lebih ramah ML (seaborn, misalnya, dapat bekerja secara langsung dengan bingkai data panda).

Untuk pelacakan eksperimen: MLFlow

Meluncurkan upaya machine learning yang layak membutuhkan banyak eksperimen dan uji coba agar dapat berjalan dengan benar. Untuk itu, library MLFlow membantu tim mencatat model ML, parameter, dan hasil, serta mengelola upaya debugging, membantu mengubah model terlatih menjadi sesuatu yang siap dirilis.

Ilmu data dan MLOP untuk pemimpin data

Bergabunglah dengan para pemimpin lain untuk mendorong tiga pilar penting MLOP dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Library machine learning teratas