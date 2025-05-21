Apa itu kompromi bias-varians?

Penulis

Fangfang Lee

Developer Advocate

IBM

Pengantar kompromi bias-varians

Dalam machine learning (ML) dan kecerdasan buatan (AI), kompromi bias-varians adalah konsep yang mengatur kinerja model machine learning prediktif dan aspek mendasar dalam  ilmu data.

Ketika memutuskan untuk membangun model ML untuk masalah bisnis tertentu, kita harus memilih arsitektur model yang meminimalkan kesalahan dan menangkap sinyal yang mendasarinya. Bias dan varians mewakili dua sumber kesalahan prediksi. Bias mengukur seberapa jauh prediksi dari nilai sebenarnya karena asumsi yang terlalu sederhana; sebaliknya varians menangkap seberapa banyak prediksi berfluktuasi berdasarkan data pelatihan yang berbeda.

Memahami dan mengelola kompromi ini sangat penting untuk membangun model yang menggeneralisasi ke data tidak terlihat dengan baik. Model dengan bias tinggi cenderung mengalami underfitting, kehilangan pola-pola penting, sementara model dengan varians tinggi rentan terhadap overfitting, menangkap ketidakakuratan seolah-olah mereka adalah sinyal. Mencapai keseimbangan yang tepat adalah inti dari desain machine learning yang efektif dan membantu menjelaskan mengapa model yang berkinerja baik pada data pelatihan mungkin tetap gagal di dunia nyata.

Dalam bagian penjelas ini, kami menyelami detail teknis kompromi bias-varians dan kesalahan prediksi, melukiskan gambaran tentang cara membangun model yang tepat untuk kumpulan data. 

Ilustrasi kompromi

Dalam model prediktif seperti regresi linier atau K-nearest neighbor (KNN), bias dan varians saling bergantung:

  • Bias mengukur rata-rata sejauh apa ketidakakuratan prediksi model dari nilai kebenaran dasar. Model bias tinggi cenderung membuat asumsi yang kuat tentang bentuk data dan menyebabkan underfitting. Model yang terlalu sederhana cenderung memiliki bias tinggi dan varians rendah—model seperti ini cenderung memiliki kesalahan pelatihan dan kesalahan prediksi yang tinggi.  
  • Varians mengukur seberapa besar prediksi model berubah dengan kumpulan data pelatihan yang berbeda. Model varians tinggi sensitif terhadap ketidakakuratan dalam data pelatihan dan menyebabkan overfitting. Model dengan arsitektur kompleks dan lebih banyak parameter cenderung memiliki varians tinggi dan bias rendah.
Diagram varians bias

Dalam bagian penjelas ini, kami menggunakan regresi linier sebagai contoh untuk menggambarkan bagaimana kompleksitas model memengaruhi bias dan varians dalam hasil yang diprediksi. Ingatlah bahwa dalam regresi linier, metrik evaluasi ditetapkan oleh rata-rata kuadrat kesalahan (MSE): rata-rata kuadrat kesalahan dari kebenaran dasar dan nilai prediksi. MSE yang besar mengindikasikan model yang kurang sesuai pada data pelatihan, sedangkan MSE yang rendah mengindikasikan model yang sangat sesuai pada data pelatihan.

MSE didefinisikan sebagai:

 MSE=(ypred-yactual)2  

Atau dinyatakan sebagai jumlah sisa kuadrat:

 RSS=i=1n(yi-yi^)2

Katakanlah kita diberi satu kumpulan nilai input X dan nilai output yang sesuai Y. Hubungan sebenarnya antara X dan Y adalah nonlinier—bayangkan bentuk U yang melengkung sempurna seperti gelombang sinus. Tapi kita tidak tahu fungsi yang mendasarinya. Sebaliknya, kami mengamati titik data tidak akurat yang memperkirakannya.

Grafik data tidak akurat

Kami sekarang ingin membangun model untuk memprediksi Y dengan menggunakan X.

Untuk mengilustrasikan bagaimana kompleksitas model memengaruhi kinerja, kita dapat mencoba menyesuaikan tiga model dengan kompleksitas yang semakin meningkat: model linier, model polinomial yang agak kompleks, dan model polinomial yang sangat kompleks.

Komponen ketidakakuratan ini menunjukkan keacakan, meniru data dunia nyata. Polinomial adalah ekspresi matematika yang melibatkan jumlah pangkat X dikalikan dengan koefisien.

Misalnya, polinomial derajat 1 adalah:

 y^=β0+β1x

Model ini direpresentasikan sebagai garis lurus:

Polinomial derajat 1

Model ini sangat sederhana dan membuat asumsi yang kuat bahwa hubungan antara X dan Y adalah linier. Namun data jelas memiliki pola melengkung. Akibatnya:

  • Bias tinggi: Model tidak dapat menangkap pola nonlinier dalam data.
  • Varians rendah: Stabil dan tidak banyak berubah dengan kumpulan data yang berbeda.
  • MSE (rata-rata kuadrat kesalahan): 0,2929. Nilai yang relatif tinggi.

Ini adalah contoh underfitting—model terlalu sederhana untuk mempelajari struktur yang sebenarnya.

Polinomial derajat 4 adalah:

 y^=β0+β1x+β2x2+β3x3+β4x4

Polinomial derajat 4

Sekarang kami menggunakan polinomial yang mencakup pangkat x hingga  x4 :

 y^=β0+β1x+β2x2+β3x3+β4x4

Model ini cukup kompleks untuk menangkap kurva data tanpa terlalu sensitif terhadap ketidakakuratan.

  • Bias sedang: Model dapat menunjukkan fungsi sebenarnya dengan cukup baik.
  • Varians sedang: Tidak bereaksi berlebihan terhadap fluktuasi kecil dalam data.
  • MSE: Sekitar 0,0714, lebih rendah dari derajat 1.

Ini adalah model berkinerja terbaik dalam contoh kita—generalisasi dilakukan dengan baik.

Polinomial derajat 25 adalah:

 y^=i=025βixi

Polinomial derajat 25

Dengan 26 parameter, model ini memiliki fleksibilitas tinggi dan sangat cocok dengan data pelatihan—bahkan ketidakakuratan acak. Kurva terlihat sangat berlekuk dan terlalu menyesuaikan dengan data.

  • Bias rendah: Cukup fleksibel untuk mengikuti sinyal.
  • Varians tinggi: Bereaksi kuat terhadap ketidakakuratan dan akan berubah secara signifikan dengan sampel data baru.
  •  MSE: Sekitar 0,059, lebih rendah dari derajat 4 karena terlalu menghafal pola data pelatihan.

Ini adalah contoh overfitting, model mempelajari ketidakakuratan dan sinyal, dan tidak menggeneralisasi ke data yang tidak terlihat dengan baik.

Semakin tinggi derajatnya, kurva semakin tampak "bergelombang", dan semakin dapat beradaptasi dengan data pelatihan—termasuk sinyal dan ketidakakuratan.

Dalam contoh di atas, kita dapat melihat bahwa kompleksitas model dan jumlah parameter berdampak langsung pada kompromi bias-varians. Ketika model menjadi lebih kompleks dan memiliki lebih banyak parameter, variabilitas dalam nilai prediksi dalam kumpulan pengujian meningkat, yang menyebabkan varians tinggi. Namun, karena model menyederhanakan dan jumlah parameter berkurang,   bias2  dalam prediksi meningkat.

Oleh karena itu, ketika membangun model machine learning, tujuan kita adalah agar bias dan varians mencapai kinerja model yang optimal secara bersamaan. Pengoptimalan ini tidak hanya menghasilkan hasil yang baik dari pelatihan, tetapi juga menggeneralisasi ke data pengujian yang tidak terlihat dengan baik. Dalam bagian selanjutnya, kita akan menyelami detail matematis tentang bagaimana perhitungan bias dan varians dihasilkan dan mengapa model machine learning mengandung ketidakpastian yang terdiri dari bias, varians, dan kesalahan yang tidak dapat direduksi.

Pertukaran bias varians

Bias dan varians dalam praktik

Memahami bagaimana bias dan varians bermanifestasi dalam model machine learning dunia nyata sangat penting untuk mendiagnosis dan meningkatkan kinerja. Dalam bagian berikut, kami menyelami detail tentang bagaimana model dengan bias dan varians tinggi menyebabkan kinerja yang berpotensi buruk dalam sistem AI.

Model dengan bias tinggi

Model dengan bias tinggi biasanya terlalu sederhana untuk menangkap pola sebenarnya dalam data. Mereka tidak menangkap pola kumpulan pelatihan yang menyebabkan pelatihan dan akurasi tes yang buruk. Contoh klasik adalah regresi linier yang diterapkan pada data nonlinier yang ditunjukkan sebelumnya. Jika hubungan yang sebenarnya antara fitur dan target adalah kuadratik atau sinusoidal dan kita mencocokkan dengan garis lurus, model tersebut tidak memiliki kapasitas untuk menangkap struktur yang mendasarinya.

Gejala: Kesalahan tinggi pada kumpulan pelatihan dan tes. Bias menjadi besar dan menyebabkan kinerja yang buruk pada kumpulan latihan dan pengujian.

Model dengan varians tinggi

Model varians tinggi terlalu fleksibel dan terlalu mengikuti data pelatihan, termasuk ketidakakuratan. Mereka melakukan overfitting pada kumpulan pelatihan dan gagal menggeneralisasi ke data yang tidak terlihat, sehingga menyebabkan overfitting dan menghasilkan prediksi dengan variabilitas yang sangat tinggi.

Contoh umum meliputi:

  • Struktur keputusan tanpa pemangkasan.
  • Regresi polinomial dengan derajat tinggi.
  • KNN dengan k yang sangat rendah.

Gejala: Kesalahan pelatihan rendah tetapi kesalahan pengujian tinggi. Prediksi bervariasi secara signifikan di seluruh kumpulan data yang berbeda. Parameter varians mendominasi kesalahan, menunjukkan model tidak stabil terhadap perubahan pada data pelatihan.

Mendiagnosis bias dan varians

Beberapa alat praktis untuk mendiagnosis kesalahan ini meliputi:

Kurva pembelajaran (ditunjukkan sebelumnya di bagian I):

  • Pelatihan plot dan kesalahan validasi versus ukuran kumpulan pelatihan.
  • Jika kedua kesalahan tinggi dan menyatu, ini menunjukkan bias yang tinggi.

Jika kesalahan pelatihan rendah dan kesalahan validasi tinggi dengan celah yang tidak menutup, itu menunjukkan varians yang tinggi. Validasi silang dapat diterapkan untuk mendiagnosis kinerja model dan membuat rata-rata kesalahan dari kumpulan pelatihan yang dipilih.

  • Membantu memperkirakan kesalahan generalisasi.
  • Berguna untuk membandingkan model atau hiperparameter dengan cara yang sadar variasi.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Pertimbangan dunia nyata

Dalam praktiknya, mengendalikan kompromi bias-varians tidak hanya menyangkut pemilihan "model" yang sempurna, namun lebih tentang mengelola kompleksitas melalui berbagai strategi. Kita dapat menerapkan beberapa teknik untuk mengontrol variabilitas dalam kesalahan prediksi dengan menerapkan beberapa strategi berikut:

Regularisasi

Regularisasi mengacu pada serangkaian teknik yang digunakan untuk membatasi atau menghukum kompleksitas model untuk meningkatkan generalisasi—yaitu, kinerja pada data yang tidak terlihat. Dalam parameter matematis, regularisasi memodifikasi fungsi kerugian asli dengan menambahkan parameter penalti yang mengurangi kerumitan (biasanya dalam bentuk bobot besar atau model yang terlalu fleksibel).

Tujuannya adalah untuk mencegah overfitting, terutama ketika mengatasi data berdimensi tinggi atau terbatas. Saat melatih model machine learning, kita biasanya meminimalkan fungsi kesalahan seperti Rata-rata Kuadrat Kesalahan (MSE)

 RSS=∑i=1n(yi-yi^)2

Dengan regularisasi, kita menambahkan penalti untuk tujuan ini. 

Regularisasi L2 (regresi ridge)

LossRidge=∑i=1n(yi-yi^)2+λ*Penalty

Sini<

 λ  adalah hiperparameter yang mengontrol kompromi antara mengikuti data pelatihan dan menjaga model tetap sederhana.

Nilai ini menambahkan penalti sebanding dengan kuadrat besarnya koefisien. Hal ini mencegah bobot yang terlalu besar sehingga mengurangi varians. Parameter penalti memastikan fitur dengan kemampuan prediksi rendah memiliki nilai rendah, yang mengurangi koefisien parameter secara efektif.

Regularisasi L1 (laso)

Mendorong sparsitas:

 Losslasso=∑i=1n(yi-ŷi)2+λ∑j=1p|βj|

Ini dapat menghilangkan fitur yang tidak relevan sepenuhnya, menyederhanakan model dan dengan demikian mengurangi varians. Parameter penalti USD{\sum_{j=1}^{p} |\beta_j}USD memastikan fitur yang tidak signifikan dikurangi menjadi nol, secara efektif menghilangkan fitur sepenuhnya.

Metode ansambel

Metode ensambel menggabungkan beberapa model untuk mengurangi kesalahan dengan merata-ratakan deviasi tiap prediksi. Ini melibatkan penggabungan atau penumpukan beberapa model varians tinggi bersama-sama untuk mendapatkan akurasi prediksi terbaik. Beberapa contohnya antara lain:

Bagging (misalnya, Random forests) mengurangi varians dengan merata-ratakan beberapa estimator dengan varians tinggi yang dilatih pada subset data yang berbeda.

Boosting (misalnya, xgBoost, AdaBoost) membangun pembelajar yang kuat dengan mengoreksi kesalahan model sebelumnya secara berurutan, sering kali menyeimbangkan pengurangan bias atau varians dengan penyetelan yang cermat.

Penyetelan hiperparameter dan pemilihan model

Kompleksitas model dan kekuatan regularisasi sering dikendalikan melalui hiperparameter. Teknik seperti pencarian grid atau pencarian acak dengan validasi silang atau pengoptimalan Bayesian dapat membantu menemukan model yang menyeimbangkan bias dan varians pada data yang dikesampingkan.

Akademi AI

Memilih model AI yang tepat untuk contoh penggunaan Anda

Lebih besar tidak selalu lebih baik dalam hal model AI. Pelajari cara menemukan model yang tepat untuk kebutuhan bisnis Anda. Kemudian dapatkan buku panduan untuk membantu Anda mengambil tindakan.
Buka episode

Penerapan pada AI modern

Kompromi bias-varians tidak hanya bersifat teoretis. Ini memainkan peran penting dalam pembelajaran mendalam dan sistem AI skala besar. Dalam era modern AI, pilihan arsitektur neural networks memainkan peran penting dalam mengelola kompromi antara bias dan varians. Inilah cara dua arsitektur dasar—CNN dan RNN—menangani keseimbangan ini dalam praktik.

1. Neural networks convolusional (CNN): CNN dirancang khusus untuk data dengan struktur spasial—yang paling umum adalah gambar. Fitur arsitekturnya memungkinkan mereka untuk mengurangi varians sekaligus mempertahankan ekspresi yang memadai untuk menjaga bias tetap rendah.

  • Bidang reseptif lokal (Konvolusi): Alih-alih menghubungkan setiap piksel input ke setiap neuron output (seperti dalam jaringan yang terhubung sepenuhnya), CNN menggunakan filter kecil (kernel) yang meluncur melintasi input. Ini menegakkan asumsi bahwa fitur lokal berguna—bias terhadap lokalitas spasial.
  • Pembagian bobot: Tiap filter (atau kernel) digunakan kembali pada seluruh gambar, sehingga secara drastis mengurangi jumlah parameter yang dapat dilatih. Ini membatasi overfitting, menurunkan varians, tetapi menyebabkan sejumlah bias dengan membatasi fleksibilitas model.
  • Lapisan pengumpulan (misalnya, pengumpulan maksimal): Lapisan ini meringkas peta fitur dan menyebabkan invariansi terjemahan. Meskipun mengurangi varians dengan mengabaikan fluktuasi kecil, hal ini dapat meningkatkan bias dengan membuang beberapa detail yang berpotensi berguna.
  • Pembelajaran fitur secara hierarkis: CNN belajar dari tepi tingkat rendah ke bentuk tingkat tinggi lapis demi lapis. Bias induktif berlapis ini memungkinkan generalisasi dengan contoh yang lebih sedikit—membantu dalam domain yang langka data.

2. Recurrent neural networks (RNN): RNN disesuaikan dengan data berurutan seperti teks, ucapan, atau deret waktu, di mana output saat ini bergantung pada elemen sebelumnya. Desainnya mencoba menyeimbangkan ketergantungan jangka panjang (yang mengurangi bias) dan stabilitas pelatihan (yang mengontrol varians).

  • Pembagian bobot dari waktu ke waktu: RNN menggunakan parameter yang sama pada setiap langkah waktu, sehingga menimbulkan bias terhadap keadaan tetap konstan dalam urutan (dengan asumsi bahwa pola berjenis sama berulang), tetapi secara signifikan mengurangi varians dengan membatasi pertumbuhan parameter.
  • Memori dari input masa lalu: RNN mempertahankan keadaan tersembunyi h_t yang meringkas informasi masa lalu. Secara teoretis, keadaan ini memungkinkan model untuk mengurangi bias dengan memodelkan dependensi dengan rentang jauh. Namun, dalam praktiknya, gradien yang menghilang sering kali menghalangi mereka untuk mempelajari hubungan jangka panjang secara efektif, sehingga meningkatkan bias.
  • Varian seperti memori jangka pendek yang panjang (LSTM) dan gated recurrent unit (GRU): Arsitektur ini mengurangi gradien yang hilang dengan menggunakan gerbang yang memungkinkan retensi memori lebih baik dari waktu ke waktu. Akibatnya, mereka dapat menurunkan bias lebih jauh tanpa peningkatan yang besar dalam varians.
  • Kestabilan pelatihan dan overfitting: RNN mendalam (memiliki banyak lapisan atau urutan yang panjang) rentan terhadap varians tinggi—terjadi overfitting ketidakakuratan dalam urutan pelatihan. Teknik seperti dropout, pemotongan gradien, dan pengelompokan urutan sering digunakan untuk mengontrol hal ini.

Teknik yang mengendalikan kompromi

  • Dropout: Menonaktifkan neuron secara acak selama pelatihan akan menambah ketidakakuratan yang memaksa network untuk mempelajari representasi yang berlebihan, sehingga mengurangi overfitting dan dengan demikian varians.
  • Normalisasi batch: Membantu menstabilkan dan mempercepat pelatihan, dan sering kali mengurangi varians dengan menghaluskan pengoptimalan.
  • Penghentian dini: Mencegah overfitting dengan menghentikan pelatihan ketika kesalahan validasi mulai meningkat.
  • Pembelajaran transfer: Model terlatih pada kumpulan data besar sering menggeneralisasi lebih baik dengan lebih sedikit parameter pelatihan, mengurangi varians pada kumpulan data kecil.
  • Hukum penskalaan dan pengamatan modern: Temuan terbaru dalam model besar (seperti transformator) menunjukkan bahwa peningkatan data, komputasi, dan ukuran model mengurangi kesalahan pengujian—menunjukkan bias berkurang lebih cepat daripada peningkatan varians dalam model berkapasitas tinggi. Namun, regularisasi yang buruk atau data yang tidak mencukupi tetap dapat menyebabkan overfitting.

Landasan teori

Mari kita selami dasar-dasar matematika dari kompromi bias-varians. Ingat dari contoh sebelumnya bahwa kita bertujuan untuk mengurangi kesalahan total nilai prediksi dan nilai aktual. Kesalahan ini terdiri dari tiga komponen: bias, varians, dan kesalahan yang tidak dapat direduksi. Kita dapat menganalisis kesalahan prediksi kuadrat yang diharapkan dari sebuah model:

 f^(x)

dibandingkan dengan fungsi sebenarnya:  f(x),

di mana  f^(x)  dipelajari dari kumpulan data pelatihan  D , dan  x   adalah fungsi yang sebenarnya (tidak diketahui).

Asumsikan:

 y=f(x)+ε,ε∼N(0,σ2)

ini berarti untuk fungsi  y=f(x)+ε , kesalahan (dilambangkan dengan  ε ) terdistribusi normal dengan mean 0 dan varians  σ2 ,  σ menunjukkan standar deviasi dari distribusi

 f^(x)  adalah nilai prediksi model pada input  x

Ekspektasi (atau rata-rata) diambil atas kumpulan data pelatihan yang berbeda  D dan ketidakakuratan  ε . Simbol E digunakan untuk menyatakan "ekspektasi" atau "nilai yang diharapkan," yang merupakan nilai sejati dari rata-rata distribusi

Kita tertarik pada kesalahan prediksi yang diharapkan pada satu titik  x :

 ED,ε[(y-f^(x))2]

Pengganti:

 y=f(x)+ε

Jadi ekspresinya menjadi:

 =ED,ε[(f(x)+ε-f^(x))2]

Memperluas kuadrat:

 $=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$

Pisahkan ekspektasi dengan menggunakan linearitas (linearitas adalah konsep aljabar sederhana, misalnya,  E[A+B]=E[A]+E[B]):

 =ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]

Sekarang, karena:

 E[ε]=0⇒E[(f(x)-f^(x))ε]=0

 E[ε2]=σ2

Kita mendapatkan:

 ED[(f(x)-f^(x))2]+σ2

Menguraikan parameter pertama:

Tambahkan dan kurangi 

ED[f^(x)] :

 ED[(f(x)-f^(x))2]=ED[(f(x)-ED[f^(x)]+ED[f^(x)]-f^(x))2]

Asumsikan:

 a=f(x)-ED[f^(x)]

 b=ED[f^(x)]-f^(x)

Kemudian:

 ED[(a+b)2]=a2+ED[b2]+2aED[b]

Karena  ED[b]=0 , parameter silang menghilang dan kita mendapatkan:

 =(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]

Dekomposisi bias-varians akhir:

ED,ε[(y-f^(x))2]=$$(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]+σ2

Di sini, parameter pertama adalah  bias2 , parameter kedua adalah  varians , dan parameter ketiga adalah kesalahan yang tidak dapat direduksi

Ini menunjukkan bahwa total kesalahan prediksi yang diharapkan dapat diuraikan menjadi:

Bias²: Kesalahan dari asumsi yang salah dalam model (misalnya, underfitting, model terlalu sederhana)

Varians: Kesalahan dari sensitivitas terhadap data pelatihan (misalnya, overfitting, model terlalu rumit)

- Ketidakakuratan tidak dapat direduksi: Keacakan dan kesalahan yang tidak dapat dihindari dalam pengamatan

Kesimpulan dan bacaan lebih lanjut

Singkatnya, bias dan varians adalah dua sumber mendasar dari kesalahan prediksi dalam machine learning. Memahami kompromi ini bukan hanya latihan teoretis; ini secara langsung membentuk cara kita merancang, melatih, dan menerapkan model ML dalam praktik.

Baik memilih antara model linier sederhana atau neural networks mendalam yang kompleks, mengenali keseimbangan antara underfitting dan overfitting sangat penting untuk membangun sistem AI yang tangguh. Meskipun kita berfokus pada rata-rata kuadrat kesalahan (MSE) sebagai fungsi kesalahan kita, kompromi ini berlaku pada berbagai macam distribusi dan metrik kesalahan—menjadikannya pertimbangan yang universal di pembelajaran diawasi.

Dalam beberapa tahun terakhir, para peneliti telah mengamati perilaku yang menarik dalam model besar dengan terlalu banyak parameter seperti neural networks mendalam. Terlepas dari kapasitasnya yang tinggi, model ini sering kali menggeneralisasi dengan baik, bahkan ketika mereka sangat cocok dengan data pelatihan—yang tampaknya bertentangan dengan kerangka kerja bias-varians tradisional.

Perilaku membingungkan ini digali dalam berbagai karya seperti "Reconciling modern machine learning and the bias-variance trade-off" oleh Belkin et al. (2019), yang memperkenalkan konsep penurunan ganda, dan "A universal law of robustness via isoperimetry" oleh Bubeck et al., yang mengusulkan penafsiran geometris pada generalisasi.

Seiring dengan upaya kita untuk membangun sistem AI yang lebih tangguh, pemahaman yang lebih dalam tentang dinamika ini menjadi penting—tidak hanya untuk mengoptimalkan kinerja, tetapi juga untuk menafsirkan perilaku model, memastikan keadilan, dan memajukan praktik AI yang bertanggung jawab.

Sumber daya

Jelajahi IBM Granite

IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
IBM dinobatkan sebagai Strong Performer dalam "Forrester Wave: AI Foundation Models for Language, Q2 2024"

Bisnis menyadari bahwa mereka tidak dapat menskalakan AI generatif dengan model dasar yang tidak dapat mereka percayai. Unduh kutipan untuk mempelajari mengapa IBM, dengan model unggulan &quot;Granite&quot;, dinamai Strong Performer.
Panduan CEO untuk optimasi model

Pelajari cara mendorong tim untuk terus meningkatkan kinerja model dan melampaui persaingan dengan menggunakan teknik dan infrastruktur AI terbaru.
Pendekatan berbeda pada model dasar AI

Jelajahi nilai model dasar tingkat perusahaan yang memberikan kepercayaan, kinerja, dan manfaat hemat biaya untuk semua industri.
Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif, machine learning, dan model dasar ke dalam operasi bisnis Anda untuk meningkatkan kinerja.
Model AI mana yang tepat untuk Anda?

Tonton demo perbandingan model IBM dengan model lain di berbagai contoh penggunaan.
Cara IBM menyesuaikan AI generatif untuk perusahaan

Pelajari bagaimana IBM mengembangkan model dasar generatif yang dapat dipercaya, hemat energi, dan portabel.
Solusi terkait
Model dasar

Jelajahi perpustakaan model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

 Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

 Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

 Jelajahi layanan AI
Ambil langkah selanjutnya

Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.

 Temukan watsonx.ai Jelajahi model AI IBM Granite
Referensi

[1]: Hastie, T., Tibshirani, R., & Friedman, J. The Elements of Statistical Learning. Springer.

[2]: James, G., Witten, D., Hastie, T., & Tibshirani, R. An Introduction to Statistical Learning. Springer.

[3]: Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). "Reconciling modern machine learning and the bias-variance trade-off."  Prosiding National Academy of Sciences*, 116 (32), 15849—15854.

[4]: Bubeck, S., Lee, Y. T., Price, E., & Razenshteyn, I. (2021). "A universal law of robustness via isoperimetry." Advances in Neural Information Processing Systems, 34, 10167–10179.