Apa itu neural network?

Penulis

Developer Advocate

IBM

Apa itu jaringan neural?

Neural network adalah model machine learning yang menumpuk "neuron" sederhana dalam lapisan dan mempelajari bobot pengenalan pola dan bias dari data untuk memetakan input ke output.

Neural networks adalah salah satu algoritma yang paling berpengaruh dalam machine learning dan kecerdasan buatan (AI). Mereka mendukung terobosan dalam visi komputer, pemrosesan bahasa alami (NLP), pengenalan suara, dan aplikasi yang tak terhitung jumlahnya mulai dari perkiraan hingga pengenalan wajah. Meski neural network mendalam (DNN) saat ini mendukung sistem yang bahkan serumittransformator dan jaringan saraf convolutional (CNN), asal-usul neural network dapat ditelusuri kembali ke model sederhana seperti regresi linier dan bagaimana otak manusia mencerna, memproses, dan memutuskan informasi yang disajikan kepadanya.

Bagaimana cara kerja jaringan neural?

Pada tingkat tinggi, inspirasi untuk neural networks berasal dari neuron biologis dalam otak manusia yang berkomunikasi melalui sinyal listrik. Pada tahun 1943, Warren McCulloch dan Walter Pitts mengusulkan model matematis pertama dari sebuah neuron yang menunjukkan bahwa unit sederhana dapat melakukan komputasi suatu fungsi. Kemudian, pada tahun 1958 Frank Rosenblatt memperkenalkan perceptron, sebuah algoritma yang dirancang untuk melakukan pengenalan pola. Perceptron adalah nenek moyang historis dari jaringan saat ini: pada dasarnya model linier dengan output terbatas. Dalam bagian berikutnya kita akan membahas bagaimana neural networks meminjam inspirasi dari otak manusia untuk membuat keputusan dan mengenali pola.

Neural network dapat dipahami melalui contoh sederhana: deteksi spam. Sebuah email dimasukkan ke dalam jaringan, dan fitur-fitur seperti kata atau frasa seperti "hadiah", "uang", "sayang", atau "menang" digunakan sebagai masukan. Neuron awal dalam jaringan memproses pentingnya setiap sinyal, sedangkan lapisan berikutnya menggabungkan informasi ini menjadi isyarat di tingkat lebih tinggi yang menangkap konteks dan nada. Lapisan terakhir kemudian menghitung probabilitas apakah email tersebut adalah spam, dan jika probabilitasnya cukup tinggi, maka email tersebut ditandai. Pada intinya, jaringan belajar bagaimana mengubah fitur mentah menjadi pola yang berarti dan menggunakannya untuk membuat prediksi.

Proses ini didukung oleh dua konsep dasar: bobot dan bias. Bobot bertindak seperti dial yang mengontrol seberapa kuat setiap fitur input memengaruhi keputusan—kata seperti “hadiah” dapat diberi bobot lebih dari kata umum seperti “halo.” Bias adalah nilai bawaan yang menggeser ambang batas keputusan, yang memungkinkan neuron untuk diaktifkan meskipun input lemah. Bersama-sama, parameter model ini menentukan bagaimana setiap neuron berkontribusi pada perhitungan keseluruhan. Dengan menyesuaikan nilai-nilai ini selama pelatihan, jaringan secara bertahap belajar untuk membuat prediksi yang akurat—dalam hal ini, apakah sebuah email adalah spam atau bukan.

Secara matematis, neural networks mempelajari suatu fungsi $f (X)$ dengan memetakan vektor input $X = (x 1, x 2, x 3. . .)$ untuk memprediksi respons $Y .$ Apa yang membedakan neural network dari algoritma machine learning tradisional lainnya adalah struktur berlapis-lapis dan kemampuannya untuk melakukan transformasi.

Neural network terdiri dari:

Lapisan input: menyimpan fitur mentah $(X 1, X 2, X 3, . .)$ .
Lapisan tersembunyi: terdiri dari neuron-neuron buatan (atau node) yang mengubah input menjadi representasi baru. Secara matematis, lapisan tersembunyi dinyatakan sebagai fitur input, dikalikan dengan bobot terkait, dan menambahkan bias untuk melewati dari satu lapisan ke lapisan berikutnya, akhirnya sampai pada lapisan output akhir. Di sinilah transformasi linier antara input dan output terjadi.
Output: Setelah melakukan transformasi linier di lapisan tersembunyi, fungsi aktivasi nonlinier (tanh, sigmoid, ReLU ) ditambahkan untuk menghasilkan prediksi akhir (seperti angka untuk regresi, atau distribusi probabilitas untuk klasifikasi).

Diagram jaringan saraf dengan tiga lapisan tersembunyi: input, beberapa lapisan tersembunyi, output

Neural network feedforward standar dengan 3 lapisan tersembunyi.

Pelatihan neural network

Sama seperti algoritma machine learning lainnya, neural net memerlukan pelatihan yang ketat agar dapat melakukan pengujian dengan baik. Untuk melatih jaringan, satu neuron menghitung:

$z = \sum_{i = 1}^{n} w_{i} x_{i} + b$

$a = σ (z)$

Di mana:

$x_{i}$ = fitur input,
$w_{i}$ = berat,
$b$ = bias,
$z$ = jumlah tertimbang (transformasi linier),
$σ$ = fungsi aktivasi (transformasi nonlinier),
$a$ = output,

$σ$ merupakan aktivasi pada output yang mengubah kombinasi linier agar sesuai dengan keputusan fungsi. Dengan menggunakan arsitektur ini, input X ditransformasikan menjadi output Y, yang berfungsi sebagai model machine learning prediktif.

Kekuatan jaringan saraf berasal dari kemampuannya untuk mempelajari bobot dan bias yang tepat dari data. Hal ini dilakukan dengan membandingkan prediksi jaringan $\hat{Y}$ ke label yang sebenarnya $Y$ dan mengukur kesalahan menggunakan fungsi kehilangan. Misalnya, dalam tugas klasifikasi, kehilangan dapat mengukur seberapa jauh probabilitas yang diprediksi dari jawaban yang benar.

Untuk meminimalkan kerugian ini, jaringan menggunakan algoritma yang disebut propagasi balik. Neural network dilatih dalam empat langkah:

Forward pass: Input mengalir melalui jaringan, yang menghitung kombinasi linier, melewati fungsi aktivasi, dan menghasilkan prediksi output.
Perhitungan kesalahan: Fungsi kehilangan mengukur perbedaan antara prediksi dan kenyataan.
Backward pass (propagasi balik): Kesalahan disebarkan mundur melalui jaringan. Pada setiap neuron, algoritma menghitung seberapa besar kontribusi setiap bobot dan bias terhadap kesalahan menggunakan aturan rantai kalkulus.
Pembaruan bobot: Bobot dan bias disesuaikan sedikit ke arah yang mengurangi kesalahan, menggunakan metode pengoptimalan seperti penurunan gradien.

Diagram penurunan gradien, "nilai bobot" pada sumbu x dan "kehilangan" pada sumbu y, dan "titik awal" pada sisi kiri atas diagram, terdapat teks pada bagian terbawah "titik konvergensi, yaitu tempat fungsi biaya minimal"

Proses ini diulang berkali-kali pada kumpulan data pelatihan. Setiap siklus membantu jaringan untuk “menyetel” parameter internal sehingga prediksinya semakin mendekati jawaban yang benar. Seiring waktu, jaringan akan menyatu dengan satu kumpulan bobot dan bias yang meminimalkan kesalahan dan menggeneralisasi dengan baik pada data yang tidak terlihat. Propagasi balik dikombinasikan dengan gradient descent adalah mesin yang membuat neural networks bekerja. Hal ini memungkinkan jaringan dengan jutaan (atau bahkan miliaran) parameter untuk mempelajari pola yang berarti dari kumpulan data yang sangat besar.

Namun, terlepas dari upaya praktisi untuk melatih model berkinerja tinggi, neural network masih menghadapi tantangan yang mirip dengan model machine learning lainnya—yang paling signifikan, overfitting. Ketika neural network menjadi terlalu kompleks dengan terlalu banyak parameter, model akan menjadi terlalu cocok dengan data pelatihan dan membuat prediksi yang buruk. Overfitting adalah masalah umum di semua jenis neural network, dan memperhatikan pertukaran bias-varian sangat penting untuk menciptakan model neural network berkinerja tinggi.

Arsitektur jaringan saraf modern—seperti transformator dan model encoder-decoder—mengikuti prinsip inti yang sama (bobot dan bias yang dipelajari, lapisan bertumpuk, aktivasi nonlinier, pelatihan ujung ke ujung dengan propagasi balik). Perbedaannya secara khusus terletak pad acara input digabung di seluruh lapisan. Alih-alih penggabungan yang sepenuhnya terhubung sendiri, transformator menggunakan atensi untuk membentuk kombinasi representasi tertimbang yang bergantung pada data, di samping koneksi residual, normalisasi, dan enkode posisi untuk memperkaya jaringan yang dibangun di atas dasar-dasar yang sama.

Jenis neural network

Meskipun perceptron multilayer adalah fondasinya, neural network telah berevolusi menjadi arsitektur khusus yang cocok untuk domain yang beragam:

Neural network konvolusional (CNN atau convnet): Dirancang untuk data seperti grid seperti gambar. CNN unggul dalam pengenalan gambar, visi komputer, dan pengenalan wajah berkat filter konvolusi yang mendeteksi hierarki spasial fitur.
Recurrent neural network (RNN): Menggabungkan masukan yang memungkinkan informasi bertahan di seluruh langkah waktu. RNN sangat cocok untuk pengenalan ucapan, perkiraan deret waktu, dan data berurutan.
Transformator: Arsitektur modern yang menggantikan RNN untuk banyak tugas urutan. Transformator memanfaatkan mekanisme atensi untuk menangkap dependensi dalam pemrosesan bahasa alami (NLP) dan mendukung model canggih seperti GPT.
Variasi ini menyoroti keserbagunaan neural network. Terlepas dari arsitekturnya, semua mengandalkan prinsip yang sama: neuron buatan, aktivasi nonlinier, dan algoritma pengoptimalan.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Aplikasi neural network

Neural networks mendukung banyak sistem AI saat ini. Beberapa aplikasi terkemuka dari neural networks meliputi:

Visi komputer: CNN untuk pengenalan gambar, pencitraan medis, dan kendaraan otonom.
Pemrosesan bahasa alami: Transformator untuk penerjemahan mesin, chatbot, dan perangkuman.
Pengenalan suara: RNN dan jaring mendalam untuk transkripsi dan asisten suara.
Perkiraan dan deret waktu: Prediksi permintaan, pemodelan keuangan, dan prakiraan cuaca.
Pembelajaran penguatan: Neural net sebagai perkiraan fungsi dalam agen bermain game (misalnya, AlphaGo bermain dari Deepmind).
Pengenalan pola: Mengidentifikasi penipuan, mendeteksi anomali, atau mengklasifikasikan dokumen.

Aplikasi ini mendorong inovasi dunia nyata dalam perawatan kesehatan, keuangan, robotika, hiburan, dan lainnya.

Mengapa neural network penting

Neural networks mempelajari representasi internal yang berguna langsung dari data, menangkap struktur nonlinier yang terlewat oleh model klasik. Dengan kapasitas yang memadai, tujuan suara, dan regularisasi terhadap overfitting, mereka meningkat dari tolok ukur kecil ke sistem produksi dalam visi komputer, pemrosesan bahasa alami, pengenalan suara, forecasting, dan banyak lagi—memberikan pencapaian terukur dalam akurasi dan ketahanan.

Pembelajaran mendalam modern memperluas fondasi ini. Kekhususan CNN adalah ekstraksi fitur spasial untuk gambar; RNN memodelkan ketergantungan temporal dalam urutan; transformator menggantikan perulangan dengan perhatian, dibantu oleh koneksi residual, normalisasi, dan paralelisme yang efisien pada GPU.

Terlepas dari perbedaan arsitektur, pelatihan tetap dilakukan secara menyeluruh dengan propagasi balik pada kumpulan data yang besar dan tampilan inti tetap memiliki: $Y = f (X; σ)$ dipelajari dengan menyusun transformasi yang bergantung pada data dengan aktivasi nonlinier. AI generatif dibangun di atas prinsip yang sama dalam skala yang lebih besar. Model bahasa besar, model difusi, VAE, dan GAN mempelajari distribusi melalui data untuk menggabungkan teks, gambar, audio, dan kode.

Lompatan dari perceptron multilayer ke generator yang canggih pada dasarnya adalah salah satu yang berawal dari arsitektur, data, dan komputasi. Memahami fungsi aktivasi, persyaratan pelatihan, dan jenis utama jaringan memberikan jembatan praktis dari neural network klasik ke sistem generatif saat ini dan menjelaskan mengapa model ini menjadi elemen penting dari AI modern.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu jaringan neural?

Penulis

Apa itu jaringan neural?

Bagaimana cara kerja jaringan neural?

Pelatihan neural network

Jenis neural network

Decoding AI: Rangkuman Berita Mingguan

Aplikasi neural network

Mengapa neural network penting

Sumber daya