Apa itu pembelajaran mendalam?

Pembelajaran mendalam adalah bagian dari machine learning yang didorong oleh berlapis-lapis neural networks yang desainnya terinspirasi oleh struktur otak manusia. Model pembelajaran mendalam mendukung sebagian besar kecerdasan buatan (AI) tercanggih saat ini, mulai dari visi komputer dan AI generatif hingga mobil otonom dan robotika.

Tidak seperti logika matematika yang didefinisikan secara eksplisit dari algoritma machine learning tradisional, neural networks tiruan dari model pembelajaran mendalam terdiri dari banyak lapisan “neuron” saling terhubung yang masing-masing melakukan operasi matematika. Dengan menggunakan machine learning untuk menyesuaikan kekuatan koneksi antara tiap neuron di lapisan yang berdekatan, dengan kata lain bobot model dan bias berbeda-beda, jaringan dapat dioptimalkan untuk menghasilkan output yang lebih akurat. Meskipun neural networks dan pembelajaran mendalam menjadi terkait seutuhnya satu sama lain, mereka tidak sepenuhnya identik: “pembelajaran mendalam” mengacu pada pelatihan model dengan setidaknya 4 lapisan (meskipun arsitektur neural networks modern sering kali jauh “lebih dalam” dari itu).

Struktur yang terdistribusi, sangat fleksibel, dan dapat disesuaikan inilah yang menjelaskan kekuatan dan keserbagunaan pembelajaran mendalam yang luar biasa. Bayangkan data pelatihan sebagai titik data yang tersebar pada grafik 2 dimensi, dan tujuan pelatihan model adalah menemukan garis yang melewati masing-masing titik data tersebut. Pada dasarnya, machine learning bertujuan untuk mencapai hal ini menggunakan fungsi matematika tunggal yang menghasilkan satu garis (atau kurva); pembelajaran mendalam, di sisi lain, dapat menyatukan sejumlah garis yang lebih kecil dan dapat disesuaikan secara individual untuk membentuk bentuk yang diinginkan. Neural network mendalam adalah aproksimator universal: telah terbukti secara teoritis bahwa untuk fungsi apa pun, ada susunan neural network yang dapat mereproduksinya.¹

Model pembelajaran mendalam paling sering dilatih melalui pembelajaran yang diawasi pada data berlabel untuk melakukan tugas regresi dan klasifikasi. Namun, karena neural network biasanya memerlukan sejumlah besar data pelatihan untuk mencapai kinerja yang optimal, biaya dan tenaga untuk memperoleh kumpulan data yang cukup besar dari contoh pelatihan beranotasi dapat menjadi penghalang. Hal ini telah mengarah pada pengembangan teknik untuk mereplikasi tugas-tugas pembelajaran yang diawasi menggunakan data yang tidak berlabel . Istilah pembelajaran yang diawasi mandiri diciptakan oleh Yann LeCun pada akhir 2010-an untuk membedakan metode tersebut dari pembelajaran tradisional yang tidak diawasi. Pembelajaran yang diawasi mandiri telah muncul sebagai mode pelatihan neural network yang menonjol, terutama untuk model dasar yang mendasari AI generatif.

Meskipun neural networ (atau konsep analog) diperkenalkan oleh ilmuwan data di awal sejarah machine learning, terobosan mereka tidak benar-benar dimulai hingga akhir 2000-an dan awal 2010-an. Munculnya jaringan pembelajaran mendalam di sebagian besar subset machine learning sebagian didorong oleh kemajuan dalam unit pemrosesan grafis berkinerja tinggi (GPU) yang memungkinkan pemrosesan paralel dari sejumlah besar langkah komputasi. Karena pembelajaran mendalam membutuhkan daya komputasi yang sangat besar untuk pelatihan dan inferensi, kemajuan perangkat keras ini sangat meningkatkan kecepatan dan kepraktisan penerapan model pembelajaran mendalam dalam skala besar.

Cara kerja pembelajaran mendalam

Neural network buatan, secara umum, terinspirasi oleh cara kerja sirkuit saraf otak manusia, yang fungsinya didorong oleh transmisi kompleks sinyal kimia dan listrik di seluruh jaringan sel saraf (neuron) yang terdistribusi. Dalam pembelajaran mendalam, “sinyal” analog adalah output tertimbang dari banyak operasi matematika berjenjang, masing-masing dilakukan oleh neuron buatan (atau node), yang secara kolektif membentuk neural network.

Singkatnya, model pembelajaran mendalam dapat dipahami sebagai serangkaian persamaan bertingkat yang rumit yang memetakan input ke output. Pada gilirannya, menyesuaikan pengaruh relatif dari tiap persamaan dalam jaringan tersebut menggunakan proses machine learning khusus dapat mengubah cara jaringan memetakan input ke output.

Meskipun kerangka kerja tersebut sangat kuat dan serbaguna, namun harus mengorbankan kemampuan interpretasi.Sering kali hanya ada sedikit, jika ada, penjelasan intuitif—di luar penjelasan matematis mentah—tentang bagaimana nilai parameter model individu yang dipelajari oleh neural network mencerminkan karakteristik data di dunia nyata. Untuk alasan itu, model pembelajaran mendalam sering disebut sebagai “kotak hitam,” terutama jika dibandingkan dengan jenis model pembelajaran machine learning yang datanya didukung oleh rekayasa fitur manual.

Dibandingkan dengan teknik machine learning klasik, pembelajaran mendalam membutuhkan data dan sumber daya komputasi yang sangat besar untuk pelatihan. Mengingat biaya dan kompleksitas perangkat keras tingkat perusahaan yang diperlukan untuk mengembangkan dan mengimplementasikan aplikasi pembelajaran mendalam yang canggih, layanan komputasi cloud telah menjadi bagian yang semakin integral dari ekosistem pembelajaran mendalam.

Struktur neural network mendalam

Jaringan saraf tiruan terdiri dari lapisan-lapisan "neuron" (atau node) buatan yang saling terhubung, yang masing-masing melakukan operasi matematisnya sendiri (disebut "aktivasi"). Ada banyak fungsi aktivasi yang berbeda; neural network akan sering menggabungkan beberapa fungsi aktivasi dalam strukturnya, tetapi biasanya semua neuron di lapisan jaringan tertentu akan diatur untuk melakukan aktivasi yang sama. Di sebagian besar neural networks, setiap neuron di lapisan input terhubung ke masing-masing neuron di lapisan berikut, yang masing-masing terhubung ke neuron di lapisan setelah itu, dan seterusnya.

Output dari fungsi aktivasi setiap node berkontribusi untuk sebagian input yang diberikan ke setiap node pada lapisan berikutnya. Yang terpenting, fungsi aktivasi yang dilakukan di setiap node adalah nonlinear, memungkinkan neural networks untuk memodelkan pola dan dependensi yang kompleks. Penggunaan fungsi aktivasi nonlinier inilah yang membedakan neural network dengan model regresi (yang sangat kompleks).

Sementara beberapa arsitektur jaringan neural khusus, seperti perpaduan model pakar atau neural network konvolusional, memerlukan variasi, penambahan, atau pengecualian pada pengaturan langsung ini, semua jaringan neural menggunakan struktur inti ini. Jumlah lapisan tertentu, jumlah node dalam setiap lapisan, dan fungsi aktivasi yang dipilih untuk setiap node lapisan adalah hiperparameter yang akan ditentukan secara manual sebelum pelatihan.

Diagram neural networks dengan tiga lapisan tersembunyi: lapisan input, beberapa lapisan tersembunyi, lapisan output

Neural networks feedforward standar dengan 3 lapisan tersembunyi.

Setiap koneksi neuron-ke-neuron yang sangat banyak ini dikalikan dengan bobot yang unik, yang memperkuat (atau mengurangi) pengaruh setiap koneksi. Input yang diberikan untuk fungsi aktivasi setiap neuron dapat dipahami sebagai jumlah tertimbang dari output setiap neuron di lapisan sebelumnya. Biasanya ada juga istilah bias unik yang ditambahkan ke setiap fungsi aktivasi, yang berfungsi mirip dengan istilah bias dari fungsi regresi umum.

Selama pelatihan, neural networks “belajar” melalui penyesuaian pada masing-masing parameter bobot dan bias ini yang menghasilkan output lebih akurat. Ini adalah parameter model: misalnya ketika Anda membaca tentang model bahasa besar (LLM) dengan 8 miliar "parameter", jumlah tersebut mencerminkan setiap koneksi antara neuron tertimbang dan bias khusus neuron dalam neural networks model.

Lapisan perantara, yang disebut lapisan tersembunyi jaringan, adalah tempat sebagian besar pembelajaran terjadi. Penyertaan beberapa lapisan tersembunyi yang membedakan model pembelajaran mendalam dari neural network "tidak mendalam", seperti mesin Boltzmann terbatas (RBN) atau perceptron multilapisan standar (MLP). Kehadiran beberapa lapisan tersembunyi memungkinkan model pembelajaran mendalam untuk mempelajari fitur hierarkis data yang kompleks, dengan lapisan sebelumnya mengidentifikasi pola yang lebih luas dan lapisan yang lebih dalam mengidentifikasi pola yang lebih mendetail.

Untuk melakukan inferensi, jaringan menyelesaikan satu forward pass: lapisan input menerima data input, biasanya dalam bentuk penanaman vektor, dengan setiap neuron input memproses tiap fitur dari vektor input. Sebagai contoh, sebuah model yang bekerja dengan gambar skala abu-abu 10x10 piksel biasanya akan memiliki 100 neuron di lapisan inputnya, dengan setiap neuron input berhubungan dengan satu piksel. Jadi neural networks biasanya memerlukan vektor input untuk diperbaiki pada ukuran tertentu, meskipun teknik prapemrosesan seperti pengumpulan atau normalisasi dapat memberikan fleksibilitas sehubungan dengan ukuran data input asli itu sendiri.

Data semakin diubah dan diteruskan ke node dari setiap lapisan berikutnya hingga lapisan akhir. Fungsi aktivasi neuron di lapisan output menghitung prediksi output akhir jaringan. Misalnya, setiap node output dari model klasifikasi mendalam dapat melakukan fungsi softmax yang pada dasarnya mengambil input numerik dan menskalakannya ke probabilitas antara 0-1 bahwa input tersebut termasuk dalam kategori klasifikasi potensial. Model kemudian akan menampilkan kategori yang sesuai dengan node mana pun yang menghasilkan output tertinggi.

Melatih neural network mendalam

Meskipun potensi teoretis dari neural network selalu terlihat jelas, pada awalnya tidak diketahui bagaimana cara melatihnya secara efisien. Tujuan dari mengoptimalkan parameter model melalui pelatihan adalah mengurangi kesalahan output akhir neural network—sayangnya, mengisolasi dan menghitung secara terpisah bagaimana masing-masing dari ribuan, bahkan jutaan atau miliaran, bobot yang saling berhubungan dalam neural network dapat menyebabkan kesalahan secara keseluruhan sangatlah tidak praktis.

Kendala ini diatasi dengan dimasukkannya dua algoritma penting: propagasi balik dan gradient descent.

Propagasi balik

Propagasi balik, kependekan dari “propagasi balik kesalahan,” adalah metode elegan untuk menghitung bagaimana perubahan pada tiap bobot atau bias dalam neural networks akan memengaruhi keakuratan prediksi model.

Ingatlah bahwa neural networks buatan pada dasarnya adalah serangkaian fungsi matematika bertingkat: output dari satu neuron lapisan berfungsi sebagai input bagi neuron lapisan berikutnya, dan seterusnya. Selama pelatihan, persamaan yang saling berhubungan tersebut disarangkan ke dalam fungsi lain:fungsi kesalahan yang mengukur perbedaan rata-rata (atau "kesalahan") antara output yang diinginkan (atau “kebenaran dasar”) untuk satu input yang diberikan dan output aktual neural networks untuk tiap forward pass.

Setelah hiperparameter awal model ditentukan, pelatihan biasanya dimulai dengan inisialisasi parameter model secara acak. Model ini membuat prediksi pada sekumpulan contoh dari kumpulan data pelatihan dan fungsi kerugian melacak kesalahan dari setiap prediksi. Tujuan dari pelatihan adalah mengoptimalkan parameter secara berulang-ulang hingga kerugian rata-rata berkurang hingga di bawah ambang batas yang dapat diterima.

Propagasi balik memerlukan satu lintasan mundurujung ke ujung melalui jaringan, dimulai dengan output dari fungsi kehilangan dan beroperasi kembali ke lapisan input. Menggunakan aturan rantai kalkulus, propagasi balik menghitung “gradien” dari fungsi kerugian: vektor turunan parsial dari fungsi kehilangan sehubungan dengan setiap variabel dalam setiap persamaan yang akhirnya bersarang ke dalam perhitungan fungsi kehilangan. Dengan kata lain, ini menggambarkan bagaimana meningkatkan atau mengurangi output dari fungsi aktivasi neuron individu akan mempengaruhi kerugian secara keseluruhan - yang, dengan ekstensi, menggambarkan bagaimana setiap perubahan pada salah satu bobot yang dikalikan dengan output tersebut (atau pada istilah bias yang ditambahkan ke output tersebut) akan meningkatkan atau mengurangi kerugian.

Penurunan gradien

Gradien yang dihitung selama propagasi balik kemudian menjadi input untuk algoritma penurunan gradien.

Menurunkan—membawa ke bawa—gradien fungsi kehilangan akan mengurangi kehilangan (dan dengan demikian meningkatkan akurasi). Karena gradien yang dihitung selama propagasi balik berisi turunan parsial dari fungsi kerugian sehubungan dengan setiap parameter model, kita tahu ke arah mana harus "melangkah" nilai setiap parameter untuk mengurangi kerugian.

Setiap langkah memerlukan pembaruan parameter model dan mencerminkan “pembelajaran” model dari data pelatihannya. Tujuan kita adalah memperbarui bobot secara berulang sampai mencapai gradien minimum. Tujuan dari algoritma gradient descent adalah untuk menemukan penyesuaian parameter spesifik yang akan "menurunkan" gradien paling efisien.

Menerapkan model pembelajaran mendalam

Ada sejumlah kerangka kerja sumber terbuka untuk mengembangkan model pembelajaran mendalam, baik melatih model dari awal atau menyempurnakan model yang sudah terlatih. Perpustakaan machine learning ini menawarkan berbagai modul dan alur kerja yang telah dikonfigurasi sebelumnya untuk membangun, melatih dan mengevaluasi neural network, menyederhanakan dan merampingkan proses pengembangan

Di antara kerangka kerja sumber terbuka paling populer untuk bekerja dengan algoritma pembelajaran mendalam adalah PyTorch, TensorFlow, dan (terutama untuk LLM) pustaka Hugging Face Transformers. Disarankan untuk mempelajari Python sebelum bekerja dengan semua kerangka kerja ini.

Jenis model pembelajaran mendalam

Terlepas dari kelebihan dan potensi bawaannya, kinerja yang memadai pada tugas-tugas tertentu tetap tidak mungkin atau tidak praktis untuk neural network konvensional (“vanilla”). Beberapa dekade terakhir telah melihat beberapa inovasi pada arsitektur Neural Networks standar, masing-masing ditujukan untuk meningkatkan kinerja pada tugas dan jenis data tertentu.

Perlu dicatat bahwa jenis neural networks tertentu mungkin cocok untuk beberapa jenis model pembelajaran mendalam, dan sebaliknya. Misalnya model autoencoder yang digunakan untuk tugas gambar dapat memanfaatkan arsitektur berbasis neural networks konvolusional; model difusi dapat menggunakan arsitektur berbasis CNN atau transformator.

Jaringan neural konvolusional (CNN)

Neural network konvolusional (CNN) khususnya (tetapi tidak secara eksklusif) terkait dengan tugas-tugas visi komputer seperti deteksi objek , pengenalan gambar, klasifikasi gambar, dan segmentasi gambar, karena mampu melakukan pengenalan pola "lokal" (seperti hubungan antara piksel yang berdekatan dalam gambar).

Intuisi di balik pengembangan CNN adalah bahwa untuk tugas dan modalitas data tertentu, seperti mengklasifikasikan gambar beresolusi tinggi dengan ratusan atau ribuan piksel, jaringan neural networks berukuran cukup yang hanya terdiri dari lapisan standar yang terhubung penuh akan memiliki terlalu banyak parameter untuk digeneralisasi dengan baik pada data baru setelah pelatihan. Dengan kata lain, mereka akan menjadi tidak efisien secara komputasi dan rentan mengalami overfitting terhadap data pelatihan, tidak mempelajari pola dunia nyata yang benar-benar berguna.

Secara teoretis, neural networks yang dapat mendeteksi bentuk berbeda dan fitur bermakna lainnya dapat menghemat daya komputasi dengan mengekstrak fitur tersebut dari gambar mentah untuk diproses lebih lanjut (dan membuang informasi tentang wilayah gambar tanpa fitur yang bermakna). Salah satu cara untuk melakukannya adalah dengan menggunakan filter: susunan angka 2 dimensi berukuran kecil yang nilainya sesuai dengan bentuk fitur yang berguna. Misalnya, nilai filter yang memindai piksel gambar untuk sudut kiri atas mungkin terlihat seperti ini:

$[\begin{matrix} 10 & 10 & 10 & 10 & 10 \\ 10 & 0 & 0 & 0 & 0 \\ 10 & 0 & 0 & 0 & 0 \\ 10 & 0 & 0 & 0 & 0 \\ 10 & 0 & 0 & 0 & 0 \end{matrix}]$

Sekarang bayangkan filter 5x5 dikalikan dengan kotak piksel 5x5 dalam gambar input. Dalam istilah matematika, hal ini disebut konvolusi: operasi matematika di mana satu fungsi memodifikasi (atau melibatkan) fungsi kedua. Jika nilai piksel menyerupai nilai filter, hasil perkalian tersebut ( produk dot) akan menjadi besar dan fitur yang diwakili oleh piksel tersebut akan ditangkap; jika tidak, produk dot akan menjadi kecil dan piksel diabaikan.

Diagram dari suatu konvolusi dalam neural networks konvolusional dengan sebagian kecil nilai piksel gambar (kiri) dikalikan dengan filter konvolusi (tengah), menghasilkan representasi dimensi yang lebih rendah dari piksel asli (kanan) yang mencerminkan bagaimana piksel asli menyerupai informasi yang ditunjukkan oleh filter

Sebagian kecil nilai piksel gambar (kiri) dikalikan dengan filter konvolusi (tengah), menghasilkan representasi dimensi yang lebih rendah dari piksel asli (kanan) yang mencerminkan bagaimana piksel asli menyerupai informasi yang ditunjukkan oleh filter.

CNN menambahkan lapisan konvolusi, yang berisi jauh lebih sedikit node daripada lapisan standar yang terhubung penuh yang bertindak sebagai filter. Alih-alih memerlukan node unik (dengan bobot unik) yang sesuai dengan masing-masing piksel dalam gambar, filter lapisan konvolusi bergerak di sepanjang gambar, memproses satu kisi-kisi piksel yang berukuran sesuai pada satu waktu. Hal ini tidak hanya mengekstrak informasi yang berguna, tetapi juga secara signifikan mengurangi jumlah parameter model unik yang diperlukan untuk memproses seluruh gambar.

CNN biasanya jauh lebih "mendalam" (dari segi jumlah lapisan) daripada neural network standar, tetapi, karena lapisan konvolusi mengandung relatif sedikit neuron, masih efisien dalam hal jumlah parameter total. Saat data melintasi CNN, setiap lapisan konvolusi mengekstrak fitur yang semakin terperinci, menyusun "peta fitur". Peta fitur akhir akhirnya diteruskan ke lapisan standar yang terhubung sepenuhnya yang melakukan prediksi akhir. Dalam pelatihan, model secara alami mempelajari bobot untuk lapisan konvolusi yang menghasilkan filter mereka menangkap fitur yang kondusif untuk prediksi akhir yang akurat.

Recurrent neural networks (RNN)

Recurrent neural network (RNN) digunakan untuk tugas-tugas yang melibatkan data sekuensial, seperti perkiraan deret waktu, pengenalan ucapan, atau pemrosesan bahasa alami (NLP).

Sedangkan jaringan saraf neural networks konvensional memetakan satu input ke satu output, RNN memetakan urutan input ke output dengan beroperasi dalam loop berulang di mana output untuk langkah tertentu dalam urutan input berfungsi sebagai input ke komputasi untuk langkah berikut. Akibatnya ini menciptakan “memori” internal dari input masa lalu, yang disebut status tersembunyi. Diperbarui setelah setiap langkah waktu, status tersembunyi ini memungkinkan RNN untuk mempertahankan pemahaman tentang konteks dan ketertiban.

Meskipun gagasan tentang satu lapisan yang "digabungkan" berguna untuk memahami konsep ini, perulangan ini juga dapat dipahami sebagai data yang melintasi rangkaian beberapa lapisan dengan bobot yang sama.

RNN, ditampilkan dalam bentuk "rolled" dan "unrolled"

Hal ini menyebabkan beberapa kekurangan mendasar dari RNN konvensional, terutama yang berkaitan dengan pelatihan. Ingatlah bahwa propagasi balik menghitung gradien fungsi kerugian, yang menentukan bagaimana setiap parameter model individu harus ditingkatkan atau diturunkan. Apabila setiap pembaruan parameter ini diulang pada terlalu banyak lapisan berulang yang "identik", maka pembaruan ini berskala secara eksponensial: memperbesar parameter dapat menyebabkan meledaknya gradien, dan memperkecil parameter dapat menyebabkan menghilangnya gradien. Kedua masalah tersebut dapat menyebabkan ketidakstabilan dalam pelatihan, pelatihan yang lambat atau bahkan terhenti sama sekali. RNN standar dengan demikian terbatas pada pemrosesan urutan yang relatif pendek.

Berbagai peningkatan pada arsitektur dasar RNN, seperti jaringan memori jangka pendek (LSTM) atau gated recurrent unit (GRU), mengurangi masalah ini dan meningkatkan kemampuan model untuk memodelkan dependensi jangka panjang.

Autoencoder

Autoencoder dirancang untuk mengompresi (atau mengenkode) data input, kemudian merekonstruksi (mendekode) input asli menggunakan representasi terkompresi ini. Dalam pelatihan, autoencoder dioptimalkan untuk meminimalkan kehilangan rekonstruksi: perbedaan antara titik data yang direkonstruksi dan data input asli. Meskipun jenis pembelajaran mendalam ini menggunakan data yang tidak berlabel dan tidak terstruktur, autoencoder umumnya dianggap sebagai contoh arketipe pembelajaran yang diawasi mandiri.

Intinya, ini memaksa model untuk mempelajari bobot yang menghasilkan representasi terkompresi yang hanya mempertahankan subset fitur yang paling penting dan bermakna dari input data. Dalam bahasa machine learning, autoencoder memodelkan ruang laten.

Autoencoder memiliki berbagai contoh penggunaan, seperti kompresi data, reduksi dimensi, ekstraksi fitur, penghilangan ketidakuratan data yang rusak, dan deteksi penipuan.

Dalam kebanyakan kasus, jaringan decoder hanya berfungsi untuk membantu melatih encoder dan dibuang setelah pelatihan. Dalam variational autoencoder (VAE) sejenis model generatif, decoder dipertahankan dan digunakan untuk menghasilkan titik data baru dengan menambahkan beberapa ketidakakuratan acak ke representasi laten yang dipelajari oleh pembuat encoder sebelum rekonstruksi.

model transformer

Munculnya model transformator, yang pertama kali diperkenalkan dalam makalah mani 2017 dari Google DeepMind berjudul “Attention is all you need” (PDF), adalah momen penting dalam pembelajaran mendalam yang mengarah langsung ke era AI generatif saat ini.

Seperti RNN, transformator secara inheren dirancang untuk bekerja dengan data berurutan. Fitur yang menentukan dari model transformator adalah mekanisme perhatian diri unik yang menghasilkan kemampuan mengesankan untuk membedakan hubungan (atau dependensi) antara setiap bagian dari urutan input. Yang lebih penting lagi, mekanisme perhatian ini memungkinkan transformator untuk secara selektif berfokus pada (atau "memperhatikan") bagian-bagian dari urutan input yang paling relevan pada saat tertentu.

Mekanisme perhatian pertama kali diperkenalkan dalam konteks RNN yang digunakan untuk terjemahan mesin. Namun, tidak seperti RNN, transformator tidak menggunakan lapisan berulang; arsitektur transformator standar hanya menggunakan lapisan perhatian dan lapisan feedforward standar, memanfaatkan struktur baru yang terinspirasi oleh logika database relasional.

Transformator paling sering dikaitkan dengan model bahasa besar (LLM) dan, berdasarkan asosiasi, contoh penggunaan NLP seperti pembuatan teks, chatbot, dan analisis sentimen. Namun, solusi adalah model yang sangat serbaguna yang mampu memproses modalitas data berurutan apa pun, termasuk data audio atau deret waktu. Bahkan modalitas data seperti data gambar dapat diproses oleh transformator visi (ViT) melalui solusi cerdas untuk merepresentasikannya sebagai sebuah urutan.

Meskipun model transformator telah menghasilkan hasil mutakhir di hampir setiap domain pembelajaran mendalam, mereka belum tentu menjadi pilihan optimal untuk setiap contoh penggunaan. Misalnya, meski VIT telah mencapai peringkat kinerja tertinggi di seluruh tolok ukur untuk tugas visi komputer, CNN secara signifikan lebih cepat dan lebih efisien dari segi komputasi. Untuk tugas-tugas seperti deteksi objek atau segmentasi gambar, pilihan antara transformator atau CNN sering kali bermuara pada apakah aplikasi pembelajaran mendalam yang diberikan harus memprioritaskan akurasi maksimum atau masukan real-time.

Model Mamba

Pertama kali diperkenalkan pada tahun 2023, model Mamba adalah arsitektur pembelajaran mendalam baru untuk data berurutan. Berasal dari variasi model ruang keadaan (SSM), Mamba memiliki koneksi teoretis yang menarik ke model RNN, CNN, dan transformator. Yang paling penting, Mamba memiliki kemampuan seperti transformator untuk secara selektif memprioritaskan (atau membuang) informasi masa lalu berdasarkan relevansinya pada saat tertentu, meskipun dengan mekanisme yang sepenuhnya unik untuk melakukannya.

Hingga saat ini, Mamba mungkin satu-satunya arsitektur yang menyaingi transformator dalam domain LLM, menawarkan kinerja yang sebanding dengan efisiensi komputasi yang jauh lebih besar karena algorita yang jauh lebih hemat memori.

Generative adversarial networks (GANs)

Seperti VAE, jaringan adversarial generatif (GAN) adalah neural network yang digunakan untuk membuat data baru yang menyerupai data pelatihan asli. GAN adalah arsitektur gabungan yang menggabungkan dua jaringan pembelajaran mendalam yang dilatih secara berlawanan dalam operasi zero-sum.

Jaringan generator membuat titik data baru, seperti gambar asli. Arsitektur generatif apa pun yang mampu menghasilkan output yang diinginkan dapat digunakan untuk jaringan generator GAN. Satu-satunya karakteristik yang menentukan adalah bagaimana ia berinteraksi dengan diskriminator, dan satu-satunya persyaratannya adalah algoritma yang dapat dibedakan (dan dengan demikian dapat dioptimalkan melalui propagasi balik dan penurunan gradien).
Diskriminator diberikan gambar “sungguhan” dari kumpulan data pelatihan dan gambar “palsu” yang dihasilkan oleh generator dan ditugaskan untuk menentukan apakah gambar yang diberikan sungguhan atau palsu. Seperti generator, diskriminator dapat berbentuk arsitektur apa pun yang sesuai.
Pertama, diskriminator dilatih untuk mengklasifikasikan gambar palsu dengan benar. Selama waktu itu, bobot generator dibekukan.
Selanjutnya, bobot diskriminator dibekukan dan masukan dari diskriminator digunakan untuk melatih generator. Bobot generator dioptimalkan untuk menghasilkan gambar yang kemungkinan besar mengelabui diskriminator.
Proses ini diulangi: diskriminator menerima bermacam-macam gambar "asli" dari data pelatihan dan gambar "palsu" dari generator—yang sekarang, mungkin, lebih meyakinkan. Diskriminator sekali lagi memprediksi apakah setiap gambar asli atau palsu dan sekali lagi diperbarui.
Sekali lagi, masukan dari diskriminator (kemungkinan lebih sulit dikelabui) digunakan untuk melatih generator lebih lanjut.
Proses ini berlanjut secara berulang sampai diskriminator tidak lagi dapat membedakan antara sampel asli dan palsu.

GAN mampu belajar untuk menghasilkan contoh yang sangat akurat, tetapi sifat bertentangan dalam prosesnya membuat pelatihan menjadi rumit dan tidak stabil.

Model difusi

Model difusi adalah salah satu arsitektur jaringan saraf yang paling menonjol dalam AI generatif. Model ini praktis dan berkinerja tinggi, menawarkan stabilitas pelatihan VAE dan akurasi output GAN. Mereka paling sering digunakan untuk pembuatan gambar, tetapi juga mampu menghasilkan data teks, video, dan audio.

Seperti autoencoder, model difusi pada dasarnya dilatih untuk merusak gambar dan kemudian merekonstruksinya secara akurat, meskipun dengan cara yang sama sekali berbeda. Dalam pelatihan, model difusi belajar untuk secara bertahap mendifusikan titik data selangkah demi selangkah dengan derau Gaussian, kemudian membalik prosesnya untuk merekonstruksi input asli. Dengan demikian, mereka mendapatkan kemampuan untuk menghasilkan sampel baru (menyerupai data pelatihan asli) dengan "menghilangkan derau" pada sampel derau acak.

Model difusi laten pada dasarnya adalah hibrida dari VAE dan model difusi: mereka pertama-tama mengompres (mengenkode) input ke ruang laten, kemudian melakukan proses difusi, dan kemudian memasukkan hasil ke decoder yang melakukan upsample ke ukuran gambar yang diinginkan.

Meskipun model difusi biasanya menggunakan arsitektur berbasis CNN—khususnya arsitektur U-net digunakan secara mencolok untuk segmentasi dalam pencitraan medis—beberapa model justru memanfaatkan arsitektur berbasis transformator.

Neural networks grafik

Neural network grafik (GNN) are dirancang untuk tugas-tugas yang memerlukan pemodelan hubungan yang lebih kompleks antara entitas yang berbeda daripada yang umum untuk sebagian besar modalitas data.

Pertimbangkan data gambar, ketika piksel gambar disusun dalam kisi 2 dimensi: satu piksel secara langsung terhubung ke, paling banyak, 8 piksel yang berdekatan. CNN standar sangat cocok untuk memodelkan hubungan semacam itu. Namun kemampuan tersebut tidak cukup untuk memodelkan hubungan di dalam, misalnya, jaringan media sosial ketika seorang pengguna dapat terhubung secara langsung dengan ribuan pengguna lain dan secara tidak langsung dengan ribuan pengguna lainnya.

Struktur neural networks grafik memungkinkan representasi data yang lebih kompleks dan tidak beraturan daripada yang mungkin terjadi pada aliran data searah yang melekat pada arsitektur neural networks lainnya.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Sumber daya

Tingkatkan keahlian ML Anda

Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Manfaatkan AI : Meningkatkan ROI dengan gen AI

Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Jelajahi IBM Granite

IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Cara berkembang di era baru AI ini dengan kepercayaan dan keyakinan

Pelajari 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan mengembangkan AI tepercaya.

Laporan AI in Action

Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.

Solusi terkait

IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai

Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai

Pesan demo langsung

Catatan kaki

¹ Leshno, M., Lin, V.Y., Pinkus, A. and Schocken, S. “Multilayer feedforward networks with a nonpolynomial activation function can approximate any function” (PDF). New York University, Maret 1992.