Apa yang dimaksud dengan machine learning?

Penulis

Senior Staff Writer, AI Models

IBM Think

Apa yang dimaksud dengan machine learning?

Machine learning adalah bagian dari kecerdasan buatan (AI) yang berfokus pada algoritma yang dapat “mempelajari” pola data pelatihan dan selanjutnya membuat kesimpulan yang akurat tentang data baru. Kemampuan pengenalan pola ini memungkinkan model machine learning untuk membuat keputusan atau prediksi tanpa instruksi eksplisit yang ditanam dalam kode.

Machine learning telah mendominasi bidang AI: machine learning menjadi fondasi dari sebagian besar sistem AI modern, mulai dari model perkiraan dan kendaraan otonom hingga model bahasa besar (LLM) dan alat AI generatif lainnya.

Dasar pemikiran utama machine learning (ML) adalah bahwa jika Anda mengoptimalkan kinerja model pada kumpulan data tugas yang cukup menyerupai masalah dunia nyata yang akan digunakan untuknya—melalui proses yang disebut pelatihan model—model dapat membuat prediksi akurat pada data baru yang dilihatnya dalam contoh penggunaan akhirnya.

Pelatihan itu sendiri hanyalah sarana untuk mencapai tujuan: generalisasi, mengubah kinerja kuat pada data pelatihan menjadi hasil yang berguna dalam skenario dunia nyata, adalah tujuan mendasar machine learning. Pada intinya, model yang terlatih menerapkan pola yang dipelajarinya dari data pelatihan untuk menyimpulkan output yang benar untuk tugas dunia nyata: karena itulah penerapan model AI disebut inferensi AI.

Pembelajaran mendalam, subset dari machine learning yang digerakkan oleh neural networks buatan tiruan yang besar atau lebih tepatnya "dalam", telah muncul selama beberapa dekade terakhir sebagai arsitektur model AI canggih di hampir semua domain yang menggunakan AI. Berbeda dengan algoritma machine learning yang ditetapkan secara eksplisit, pembelajaran mendalam bergantung pada “jaringan” operasi matematika terdistribusi yang memberikan kemampuan tak tertandingi untuk mempelajari nuansa rumit dari data yang sangat kompleks. Karena pembelajaran mendalam membutuhkan data dan sumber daya komputasi dalam jumlah yang sangat besar, kemunculannya bertepatan dengan semakin pentingnya "big data" dan unit pemrosesan grafis (GPU).

Disiplin machine learning terkait erat dengan ilmu data. Dalam artian, machine learning dapat dipahami sebagai kumpulan algoritma dan teknik untuk mengotomatiskan analisis data dan (yang lebih penting) menerapkan pembelajaran dari analisis tersebut ke pelaksanaan berbagai tugas yang relevan secara mandiri.

Asal-usul istilah ini (meskipun bukan konsep inti itu sendiri) sering dikaitkan dengan artikel Arthur L. Samuel tahun 1959 di IBM Journal, “Beberapa Studi dalam Machine Learning Menggunakan Permainan Dam.” Dalam pengantar makalah tersebut, Samuel mengartikulasikan dengan rapi hasil ideal dari machine learning: "Komputer dapat diprogram sehingga akan belajar memainkan permainan dam yang lebih baik daripada yang dapat dimainkan oleh orang yang menulis program tersebut."¹

Machine learning vs kecerdasan buatan

Meskipun "machine learning" dan "kecerdasan buatan" sering digunakan secara bergantian, keduanya tidak sepenuhnya identik. Singkatnya: semua machine learning adalah AI, tetapi tidak semua AI adalah machine learning.

Dalam imajinasi populer, "AI" biasanya dikaitkan dengan fiksi ilmiah—biasanya melalui penggambaran apa yang lebih tepat disebut kecerdasan umum buatan (AGI), seperti HAL 9000 dalam film 2001: A Space Odyssey atau Ava dalam Ex Machina—atau yang terbaru, dengan AI generatif . Namun, "kecerdasan buatan" adalah istilah umum untuk semua program yang dapat menggunakan informasi untuk membuat keputusan atau prediksi tanpa keterlibatan manusia secara aktif.

Sistem AI yang paling dasar adalah serangkaian pernyataan jika-maka-lalu, dengan aturan dan logika yang diprogram secara eksplisit oleh ilmuwan data. Pada tingkat yang paling sederhana, bahkan termostat yang belum sempurna pun merupakan sistem AI berbasis aturan: bila diprogram dengan aturan sederhana seperti

IF room_temperature < 67, THEN turn_on_heater

dan

IF room_temperature > 72, THEN turn_on_air_conditioner

termostat mampu melakukan pengambilan keputusan secara mandiri tanpa campur tangan manusia lebih lanjut. Pada tingkat yang lebih kompleks, struktur keputusan berbasis aturan yang besar dan rumit yang diprogram oleh para pakar medis dapat mengurai gejala, keadaan, dan komorbiditas untuk membantu diagnosis atau prognosis.²

Tidak seperti dalam sistem pakar, logika yang digunakan model machine learning untuk beroperasi tidak diprogram secara eksplisit—namun dipelajari melalui pengalaman. Pertimbangkan program yang menyaring spam email: AI berbasis aturan membutuhkan ilmuwan data untuk merancang kriteria universal yang akurat untuk spam secara manual; machine learning hanya memerlukan pemilihan algoritma yang sesuai dan kumpulan data contoh email yang memadai. Dalam pelatihan, model diperlihatkan contoh email dan memprediksi mana yang merupakan spam; kesalahan prediksinya dihitung dan algoritmanya disesuaikan untuk mengurangi kesalahan; proses ini diulang sampai modelnya akurat. Model ML yang baru dilatih secara implisit telah mempelajari cara mengidentifikasi spam.

Seiring dengan semakin kompleksnya tugas-tugas yang harus dilakukan oleh sistem AI, model berbasis aturan menjadi semakin rapuh: sering kali tidak mungkin untuk menetapkan secara eksplisit setiap pola dan variabel yang harus dipertimbangkan oleh model. Sistem machine learning telah muncul sebagai mode dominan kecerdasan buatan karena pola pembelajaran implisit dari data itu sendiri secara inheren lebih fleksibel, dapat diskalakan, dan dapat diakses.

Cara kerja machine learning

Machine learning bekerja melalui logika matematika. Oleh karena itu, karakteristik (atau "fitur") yang relevan dari setiap titik data harus dinyatakan secara numerik, sehingga data itu sendiri dapat dimasukkan ke dalam algoritma matematika yang akan "belajar" memetakan input yang diberikan ke output yang diinginkan.

Titik data dalam machine learning biasanya direpresentasikan dalam bentuk vektor, di mana setiap elemen (atau dimensi) dari penanaman vektor titik data sesuai dengan nilai numerik untuk fitur tertentu. Untuk modalitas data yang secara inheren berupa angka, seperti data keuangan atau koordinat geospasial, hal ini relatif mudah. Tetapi banyak modalitas data, seperti teks, gambar, data grafik media sosial, atau perilaku pengguna aplikasi, bukan numerik secara inheren, dan oleh karena itu memerlukan rekayasa fitur yang tidak seketika intuitif untuk dinyatakan dengan cara yang siap untuk ML.

Proses (sering kali manual) untuk memilih aspek data mana yang akan digunakan dalam algoritma machine learning disebut pemilihan fitur. Teknik ekstraksi fitur menyempurnakan data hingga hanya memiliki dimensi yang paling relevan dan bermakna. Keduanya adalah subset dari rekayasa fitur, disiplin yang lebih luas dari pengolahan data mentah untuk digunakan dalam machine learning. Salah satu perbedaan penting dari pembelajaran mendalam adalah bahwa ia biasanya beroperasi pada data mentah dan mengotomatiskan banyak proses rekayasa fitur—atau setidaknya ekstraksi fitur—. Ini membuat pembelajaran mendalam lebih dapat diskalakan, meskipun kurang dapat ditafsirkan dibandingkan machine learning.

Parameter dan pengoptimalan model machine learning

Sebagai contoh praktis, pertimbangkan algoritma regresi linier sederhana untuk memprediksi harga jual rumah berdasarkan kombinasi tertimbang dari tiga variabel: luas persegi, usia rumah, dan jumlah kamar tidur. Setiap rumah ditunjukkan sebagai penanaman vektor dengan 3 dimensi: [square footage, bedrooms, age] . Sebuah rumah berusia 30 tahun dengan 4 kamar tidur dan luas 1.900 kaki persegi dapat ditunjukkan sebagai [1900, 4, 30] (meskipun untuk tujuan matematika semua angka itu mungkin pertama-tama diskalakan atau dinormalisasi ke rentang yang lebih seragam).

Algoritma adalah fungsi matematika sederhana:

 Harga = (A * luas persegi) + (B * jumlah kamar) - (C * Umur) + Harga Dasar

Di sini, $A$ , $B$ dan $C$ adalah parameter model: menyesuaikannya akan menyesuaikan seberapa berat bobot model dari setiap variabel. Tujuan machine learning adalah untuk menemukan nilai optimal untuk parameter model tersebut: dengan kata lain, nilai parameter yang menghasilkan fungsi keseluruhan yang mengeluarkan hasil yang paling akurat. Meskipun sebagian besar contoh machine learning dunia nyata melibatkan algoritma yang lebih kompleks dengan jumlah variabel input yang lebih besar, prinsipnya tetap sama: mengoptimalkan parameter algoritma yang dapat disesuaikan untuk menghasilkan akurasi yang lebih besar.

Jenis-jenis machine learning

Semua metode machine learning dapat dikategorikan sebagai salah satu dari tiga paradigma pembelajaran yang berbeda: pembelajaran diawasi, pembelajaran tanpa pengawasan, atau pembelajaran penguatan, berdasarkan sifat dari tujuan pelatihan mereka dan (sering namun tidak selalu) berdasarkan jenis data pelatihan yang mereka perlukan.

Pembelajaran diawasi melatih model untuk memprediksi output “benar” untuk input yang tertentu. Ini berlaku untuk tugas yang memerlukan akurasi relatif hingga tingkat tertentu terhadap beberapa “kebenaran dasar” eksternal, seperti klasifikasi atau regresi.
Pembelajaran tanpa pengawasan melatih model untuk membedakan pola intrinsik, dependensi, dan korelasi dalam data. Tidak seperti dalam pembelajaran diawasi, tugas pembelajaran tanpa pengawasan tidak melibatkan kebenaran dasar eksternal apa pun yang harus dibandingkan dengan output.
Pembelajaran penguatan (RL) melatih model untuk mengevaluasi lingkungannya dan mengambil tindakan yang akan mengumpulkan imbalan terbesar. Skenario RL tidak memerlukan adanya satu kebenaran dasar, tetapi skenario ini memerlukan adanya tindakan "baik" dan "buruk" (atau netral).

Proses pelatihan menyeluruh untuk model tertentu dapat, dan sering kali memang melibatkan pendekatan hibrida yang memanfaatkan lebih dari satu paradigma pembelajaran ini. Misalnya, pembelajaran tanpa pengawasan sering digunakan untuk memproses data untuk digunakan dalam pembelajaran diawasi atau penguatan. Model bahasa besar (LLM) biasanya menjalani pelatihan awal (prapelatihan) dan penyempurnaan melalui varian pembelajaran diawasi, diikuti oleh lebih banyak penyempurnaan melalui teknik RL seperti pembelajaran penguatan dari masukan manusia (RLHF).

Dalam praktik yang serupa tetapi berbeda, berbagai metode pembelajaran ensambel menggabungkan output dari beberapa algoritma.

Pembelajaran dengan pengawasan

Algoritma pembelajaran diawasi melatih model untuk tugas yang membutuhkan akurasi, seperti klasifikasi atau regresi. Machine learning diawasi mendukung model pembelajaran mendalam yang canggih dan beragam model ML tradisional yang masih banyak digunakan di industri.

Model regresi memprediksi nilai kontinu, seperti harga, durasi, suhu, atau ukuran. Contoh algoritma regresi tradisional termasuk regresi linier, regresi polinomial, dan model ruang keadaan.
Model klasifikasi memprediksi nilai diskret, seperti kategori (atau kelas) tempat titik data berada, keputusan biner, atau tindakan spesifik yang akan diambil. Contoh algoritma klasifikasi tradisional termasuk support vector machine (SVM), Naïve Bayes, dan regresi logistik.
Banyak algoritma ML diawasi dapat digunakan untuk kedua tugas tersebut. Sebagai contoh, output dari apa yang secara nominal merupakan algoritma regresi, selanjutnya dapat digunakan untuk menginformasikan prediksi klasifikasi.

Output model harus dibandingkan dengan kebenaran dasar untuk diukur dan dioptimalkan demi akurasi: output ideal atau “benar” untuk setiap input yang diberikan. Dalam pembelajaran diawasi konvensional, kebenaran dasar tersebut disediakan oleh data berlabel. Model deteksi spam email dilatih pada kumpulan data email yang masing-masing diberi label sebagai SPAM ATAU NOT SPAM . Model segmentasi gambar dilatih pada gambar di mana setiap piksel telah dianotasi oleh klasifikasinya. Tujuan dari pembelajaran diawasi adalah untuk menyesuaikan parameter model hingga outputnya secara konsisten sesuai dengan kebenaran dasar yang disediakan oleh label tersebut.

Yang penting pada pembelajaran diawasi adalah penggunaan fungsi kesalahan yang mengukur divergensi (“kesalahan”) antara output model dan kebenaran dasar di seluruh batch input pelatihan. Tujuan dari pembelajaran diawasi didefinisikan secara matematis sebagai meminimalkan output dari fungsi kesalahan. Setelah kesalahan dihitung, berbagai algoritma optimasi—yang sebagian besar melibatkan penghitungan turunan dari fungsi kesalahan—digunakan untuk mengidentifikasi penyesuaian parameter yang akan mengurangi kerugian.

Karena umumnya membutuhkan keterlibatan manusia untuk memberikan kebenaran dasar dalam bentuk anotasi data, proses ini disebut pembelajaran "diawasi". Dengan demikian, penggunaan data berlabel secara historis dianggap sebagai karakteristik definitif dari pembelajaran diawasi. Namun pada tingkat yang paling mendasar, ciri khas dari pembelajaran diawasi adalah adanya beberapa kebenaran dasar dan tujuan pelatihan untuk meminimalkan output dari fungsi kesalahan yang mengukur divergensi darinya.

Untuk mengakomodasi gagasan yang lebih fleksibel tentang pembelajaran diawasi, terminologi ML modern menggunakan "pengawasan" atau "sinyal pengawasan" untuk secara umum merujuk pada sumber kebenaran dasar apa pun.

Pembelajaran dengan pengawasan mandiri

Pelabelan data dapat menjadi sangat mahal dan memakan waktu untuk tugas kompleks dan kumpulan data besar. Pembelajaran diawasi mandiri memerlukan pelatihan pada tugas-tugas di mana sinyal pengawasan diperoleh secara langsung dari data yang tidak berlabel, oleh karena itu diawasi secara "mandiri".

Misalnya, autoencoder dilatih untuk mengompresi (atau menyandikan) data input, kemudian merekonstruksi (atau menguraikan) input asli menggunakan representasi yang dikompresi tersebut. Tujuan pelatihan mereka adalah untuk meminimalkan kesalahan rekonstruksi menggunakan input asli itu sendiri sebagai kebenaran dasar. Pembelajaran diawasi mandiri juga merupakan metode pelatihan utama untuk LLM: model diberikan sampel teks dengan kata-kata tertentu yang disembunyikan atau disamarkan dan ditugaskan untuk memprediksi kata-kata yang tidak ada.

Pembelajaran diawasi mandiri sering dikaitkan dengan pembelajaran transfer, karena dapat memberikan model dasar dengan kemampuan luas yang kemudian akan disempurnakan untuk tugas yang lebih spesifik.

Pembelajaran semi-diawasi

Pembelajaran diawasi mandiri pada dasarnya adalah pembelajaran diawasi pada data tidak berlabel, sedangkan metode pembelajaran agak diawasi menggunakan data berlabel dan data tidak berlabel. Secara garis besar, pembelajaran agak diawasi terdiri dari teknik yang menggunakan informasi dari data berlabel yang tersedia untuk membuat asumsi tentang titik-titik data tidak berlabel, sehingga titik-titik data tidak berlabel dapat dimasukkan ke dalam alur kerja pembelajaran diawasi.

Pembelajaran tanpa pengawasan

Algoritma machine learning tanpa pengawasan melihat pola intrinsik dalam data tidak berlabel, seperti kemiripan, korelasi, atau pengelompokan potensial. Mereka paling berguna dalam skenario di mana pola seperti itu tidak selalu terlihat oleh pengamat manusia. Karena pembelajaran tanpa pengawasan tidak mengasumsikan adanya output "benar" yang sudah diketahui sebelumnya, pembelajaran ini tidak membutuhkan sinyal pengawas atau fungsi kesalahan konvensional, oleh karena itu disebut "tanpa pengawasan."

Sebagian besar metode pembelajaran tanpa pengawasan melakukan salah satu fungsi berikut:

Algoritma pengelompokan membagi titik data tidak berlabel ke dalam “klaster,” atau pengelompokan, berdasarkan kedekatan atau kemiripan satu sama lain. Mereka biasanya digunakan untuk berbagai tugas seperti segmentasi pasar atau deteksi penipuan. Algoritma pengelompokan yang menonjol termasuk pengelompokan K-means, model campuran Gaussian (GMM) dan metode berbasis kepadatan seperti DBSCAN.
Algoritma asosiasi melihat korelasi, seperti antara tindakan tertentu dan kondisi tertentu. Sebagai contoh, bisnis e-commerce seperti Amazon menggunakan model asosiasi tanpa pengawasan untuk mendukung mesin rekomendasi.
Algoritma reduksi dimensi mengurangi kompleksitas titik data dengan menunjukkannya dengan jumlah fitur yang lebih sedikit—yaitu dalam dimensi yang lebih sedikit—sekaligus mempertahankan karakteristiknya yang bermakna. Mereka sering digunakan untuk prapemrosesan data serta berbagai tugas seperti kompresi data atau visualisasi data. Algoritma reduksi dimensi yang menonjol mencakup autoencoder,, analisis komponen utama (PCA), analisis diskriminan linier (LDA), dan t-Distributed Stochastic Neighbor Embedding (t-SNE).

Seperti namanya, algoritma pembelajaran tanpa pengawasan dapat dipahami secara luas sebagai "mengoptimalkan dirinya sendiri". Sebagai contoh, animasi ini menunjukkan bagaimana algoritma pengelompokan k-means secara berulang mengoptimalkan centroid dari setiap klaster secara mandiri. Oleh karena itu, tantangan melatih model tanpa pengawasan berfokus pada prapemrosesan data yang efektif dan penyetelan hiperparameter dengan benar yang memengaruhi proses pembelajaran tetapi tidak dapat dipelajari dengan sendirinya, seperti kecepatan pembelajaran atau jumlah klaster.

Pembelajaran penguatan (RL)

Pembelajaran diawasi melatih model dengan mengoptimalkannya agar mencocokkan contoh ideal dan algoritma pembelajaran tanpa pengawasan menyesuaikan diri dengan kumpulan data, sedangkan model pembelajaran penguatan dilatih secara holistik melalui coba-coba. Mereka sering digunakan dalam robotika, video game, model penalaran, dan contoh penggunaan lainnya di mana ruang solusi dan pendekatan yang mungkin sangat besar, terbuka, atau sulit untuk ditetapkan. Dalam literatur RL, sistem AI sering disebut sebagai "agen."

Alih-alih pasangan data input-output independen yang digunakan dalam pembelajaran diawasi, pembelajaran penguatan (RL) beroperasi pada interaksi data keadaan-tindakan-imbalan yang saling bergantung. Proses ini tidak bertujuan meminimalkan kesalahan, namun mengoptimalkan parameter untuk memaksimalkan imbalan.

Kerangka kerja matematika untuk pembelajaran penguatan dibangun terutama pada komponen berikut:

Ruang keadaan berisi semua informasi yang tersedia, yang relevan dengan keputusan yang mungkin dibuat model. Biasanya, ini berubah sesuai dengan setiap tindakan yang dilakukan model.
Ruang aksi berisi semua keputusan yang dapat diambil oleh model pada suatu saat. Dalam permainan papan, misalnya, ruang aksi terdiri dari semua gerakan valid yang tersedia pada satu waktu tertentu. Dalam pembuatan teks, ruang aksi terdiri dari seluruh "kosakata" token yang tersedia bagi LLM.
Sinyal imbalan adalah masukan—positif atau negatif, biasanya dinyatakan sebagai nilai skalar—yang diberikan kepada agen akibat setiap tindakan. Nilai sinyal imbalan dapat ditentukan dengan aturan eksplisit, fungsi imbalan, atau dengan model imbalan yang dilatih secara terpisah.
Kebijakan adalah "proses berpikir" yang mendorong perilaku agen RL. Secara matematis, kebijakan ( $π$ ) adalah fungsi yang mengambil keadaan ( $s$ ) sebagai input dan menghasilkan tindakan ( $a$ ): π(s)→a .

Dalam metode RL berbasis kebijakan seperti optimasi kebijakan proksimal (PPO), model ini mempelajari kebijakan secara langsung. Dalam metode berbasis nilai seperti Q-learning, agen mempelajari fungsi nilai yang menghitung skor seberapa "baik" setiap keadaan, kemudian memilih tindakan yang mengarah ke keadaan yang bernilai lebih tinggi. Bayangkan sebuah labirin: agen berbasis kebijakan mungkin mempelajari "belok kiri di sudut ini," sementara agen berbasis nilai mempelajari skor untuk setiap posisi dan hanya bergerak ke posisi yang berdekatan dengan skor yang lebih baik. Pendekatan hibrida, seperti metode aktor-kritik, mempelajari fungsi nilai yang kemudian digunakan untuk mengoptimalkan kebijakan.

Dalam pembelajaran penguatan mendalam, kebijakan ditunjukkan sebagai neural networks.

Pembelajaran Mendalam

Pembelajaran mendalam menggunakan neural networks tiruan dengan banyak lapisan, oleh karena itu disebut "mendalam", daripada algoritma yang dirancang secara eksplisit dari machine learning tradisional. Meskipun neural networks diperkenalkan sejak awal sejarah machine learning, namun baru diadaptasi pada akhir 2000-an dan awal 2010-an, sebagian berkat kemajuan dalam GPU, sehingga mereka menjadi dominan di sebagian besar subbidang AI.

Agak terinspirasi oleh otak manusia, neural networks terdiri dari lapisan “neuron” (atau node) yang saling terhubung, yang masing-masing melakukan operasi matematisnya sendiri (disebut “fungsi aktivasi”). Output dari fungsi aktivasi setiap node berfungsi sebagai input ke masing-masing node dari lapisan berikutnya dan seterusnya sampai lapisan akhir, di mana output akhir jaringan dihitung. Yang terpenting, fungsi aktivasi yang dilakukan di setiap node adalah nonlinear, sehingga neural networks dapat memodelkan pola dan dependensi yang kompleks.

Setiap koneksi antara dua neuron diberi bobot unik: sebuah pengali yang meningkatkan atau mengurangi kontribusi satu neuron ke neuron di lapisan berikutnya. Bobot ini, bersama dengan nilai bias unik yang ditambahkan ke fungsi aktivasi setiap neuron, adalah parameter yang akan dioptimalkan melalui machine learning.

Algoritma propagasi balik memungkinkan perhitungan tentang bagaimana setiap node berkontribusi pada output keseluruhan dari fungsi kesalahan, sehingga bahkan jutaan atau miliaran bobot model dapat dioptimalkan secara terpisah melalui algoritma penurunan gradien. Karena diperlukan volume dan perincian pembaruan untuk mencapai hasil yang optimal, pembelajaran mendalam membutuhkan sejumlah besar data dan sumber daya komputasi dibandingkan dengan ML tradisional.

Struktur terdistribusi tersebut memberikan model pembelajaran mendalam kekuatan dan keserbagunaannya yang luar biasa. Bayangkan data pelatihan sebagai titik data yang tersebar pada grafik 2 dimensi. Pada dasarnya, machine learning tradisional bertujuan untuk menemukan satu kurva yang berjalan melalui setiap titik data tersebut; pembelajaran mendalam menggabungkan garis yang lebih kecil dan dapat disesuaikan secara terpisah dalam jumlah acak untuk membuat bentuk yang diinginkan. Neural networks adalah pembuat perkiraan universal: secara teoretis telah terbukti bahwa untuk fungsi apa pun terdapat susunan neural networks yang dapat mereproduksinya.^{3, 4}

Namun demikian, hanya karena sesuatu secara teoretis memungkinkan, tidak berarti hal tersebut pada kenyataannya dapat dicapai melalui metode pelatihan yang ada. Selama bertahun-tahun, kinerja yang memadai pada berbagai tugas tertentu tetap berada di luar jangkauan bahkan untuk model pembelajaran mendalam—tetapi seiring waktu, modifikasi pada arsitektur neural networks standar telah membuka kemampuan baru untuk model ML.

Jaringan neural konvolusional (CNN)

Neural networks konvolusional (CNN) menambahkan lapisan konvolusional ke neural networks. Dalam matematika, konvolusi adalah operasi di mana satu fungsi memodifikasi (atau membelit) bentuk fungsi lainnya. Di CNN, lapisan konvolusional digunakan untuk mengekstrak fitur penting dari data dengan menerapkan “filter” tertimbang. CNN terutama terkait dengan model visi komputer dan data gambar, tetapi memiliki sejumlah contoh penggunaan penting lainnya.

A visual representation of matrix filtering applied to a numeric grid. The input image displays a 3x3 grid with numbers, while the filter and output array showcase the transformation process. Key numeric values include '9', '4', '16', and '0'. The image highlights computational concepts in data processing.

Recurrent neural networks (RNN)

Recurrent neural networks (RNN) dirancang untuk bekerja pada data berurutan. Neural networks feedforward konvensional memetakan satu input ke satu output, sedangkan RNN memetakan urutan input ke output dengan beroperasi dalam loop berulang di mana output untuk langkah tertentu dalam urutan input berfungsi sebagai input ke komputasi untuk langkah berikutnya. Efeknya, hal ini menciptakan "memori" internal yang disebut keadaan tersembunyi, yang memungkinkan RNN untuk memahami konteks dan urutan.

Transformer

Model transformator, pertama kali diperkenalkan pada tahun 2017, sebagian besar mendorong munculnya LLM dan pilar AI generatif lainnya, mencapai hasil canggih di sebagian besar subdomain machine learning. Seperti RNN, transformator seolah-olah dirancang untuk data berurutan, tetapi solusi cerdas telah memungkinkan sebagian besar modalitas data untuk diproses oleh transformator. Kekuatan unik model transformator berasal dari mekanisme perhatian inovatif mereka yang memungkinkan model untuk berfokus secara selektif pada bagian-bagian data input yang paling relevan pada saat tertentu dalam suatu urutan.

Model Mamba

Model Mamba adalah arsitektur neural networks yang relatif baru, pertama kali diperkenalkan pada tahun 2023, berdasarkan variasi unik dari model ruang keadaan (SSM). Seperti transformator, model Mamba memberikan cara inovatif untuk memprioritaskan informasi yang paling relevan secara selektif pada satu saat tertentu. Mamba baru-baru ini muncul sebagai saingan arsitektur transformator, terutama untuk LLM.

Contoh penggunaan machine learning

Sebagian besar aplikasi machine learning termasuk ke dalam satu atau lebih kategori, yang didefinisikan terutama oleh contoh penggunaan mereka dan modalitas data yang mereka operasikan.

Visi komputer

Visi komputer adalah subdomain AI yang berkaitan dengan data gambar, data video, dan modalitas data lainnya yang membutuhkan model atau mesin untuk "melihat", mulai dari diagnostik perawatan kesehatan dan pengenalan wajah hingga mobil tanpa pengemudi. Subbidang penting dari visi komputer meliputi klasifikasi gambar, deteksi objek, segmentasi gambar, dan pengenalan karakter optik (OCR).

Pemrosesan bahasa alami (NLP)

Bidang pemrosesan bahasa alami (NLP) mencakup beragam tugas mengenai teks, ucapan, dan data bahasa lainnya. Subdomain NLP yang penting termasuk chatbot, pengenalan ucapan, penerjemahan bahasa, analisis sentimen, pembuatan teks, peringkasan, dan agen AI. Dalam NLP modern, model bahasa besar terus memajukan kecanggihan dengan kecepatan yang belum pernah terjadi sebelumnya.

Analisis deret waktu

Model deret waktu adalah deteksi anomali terapan, analisis pasar, dan pengenalan pola terkait, atau tugas prediksi. Mereka menggunakan machine learning pada data historis untuk berbagai contoh penggunaan perkiraan.

Pembuatan gambar

Model difusi, variational autoencoders (VAE), dan generative adversarial networks (GAN) dapat digunakan untuk menghasilkan gambar asli yang menerapkan pola piksel yang dipelajari dari data pelatihan.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Operasi machine learning (MLOps)

Operasi machine learning (MLOps) adalah sekumpulan praktik untuk menerapkan pendekatan jalur perakitan untuk membangun, menerapkan, dan memelihara model machine learning.

Kurasi yang cermat dan prapemrosesan data pelatihan serta pemilihan model yang tepat merupakan langkah penting dalam saluran MLops. Validasi pasca-pelatihan yang cermat, mulai dari desain kumpulan data tolok ukur hingga pemrioritasan metrik kinerja tertentu diperlukan untuk memastikan bahwa model digeneralisasi dengan baik (dan tidak hanya melakukan overfitting pada data pelatihan).

Setelah penerapan, penyimpangan model, masalah efisiensi inferensi, dan perkembangan merugikan lainnya harus dipantau pada model. Praktik tata kelola model yang ditetapkan dengan baik sangat penting untuk efektivitas berkelanjutan, terutama dalam industri yang diatur atau berubah dengan cepat.

Pustaka machine learning

Sejumlah alat, pustaka, dan kerangka kerja sumber terbuka tersedia untuk membangun, melatih, dan menguji proyek machine learning. Meskipun pustaka tersebut menawarkan serangkaian modul dan abstraksi yang telah dikonfigurasi sebelumnya untuk merampingkan proses pembuatan model dan alur kerja berbasis ML, praktisi perlu membiasakan diri dengan bahasa pemrograman yang umum digunakan—terutama Python—untuk memanfaatkannya sepenuhnya.

Pustaka sumber terbuka yang terkenal, terutama untuk membangun model pembelajaran mendalam, termasuk PyTorch, TensorFlow, Keras, dan pustaka Hugging Face Transformers.

Pustaka dan machine learning dan toolkit sumber terbuka terkemuka berfokus pada ML tradisional, termasuk Pandas, Scikit-learn, XGBoost, Matplotlib, SciPy, dan NumPy di antara begitu banyak pilihan lainnya.

IBM sendiri memelihara dan memperbarui pustaka tutorial yang signifikan untuk pemula dan juga praktisi ML tingkat lanjut.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Sumber daya

Tingkatkan keahlian ML Anda

Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Manfaatkan AI : Meningkatkan ROI dengan gen AI

Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Jelajahi IBM Granite

IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Cara berkembang di era baru AI ini dengan kepercayaan dan keyakinan

Pelajari 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan mengembangkan AI tepercaya.

Laporan AI in Action

Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.

Solusi terkait

IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai

Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai

Pesan demo langsung

Catatan kaki

Semua tautan berada di luar ibm.com

1. "Some Studies in Machine Learning Using the Game of Checkers," IBM Journal (diakses melalui MIT), 3 Juli 1959
2. "Using Decision Trees as an Expert System for Clinical Decision Support for COVID-19," Interactive Journal of Medical Research, Vol 12, 30 Januari 2023
3. "Kolmogorov's Mapping Neural Network Existence Theorem," Prosiding Konferensi Internasional Pertama IEEE tentang Neural Networks (diakses melalui University of Waterloo), 1987
4. "Multilayer Feedforward Networks with a Non-Polynomial Activation Function Can Approximate Any Function," Center for Research on Information Systems (New York University), Maret 1992