Apa itu pembelajaran agen AI?

Penyusun

Cole Stryker

Staff Editor, AI Models

IBM Think

Bagaimana agen AI belajar dan beradaptasi dari waktu ke waktu?

Pembelajaran agen AI mengacu pada proses di mana agen kecerdasan buatan (AI) meningkatkan kinerjanya seiring waktu dengan berinteraksi dengan lingkungannya, memproses data, dan mengoptimalkan pengambilan keputusannya. Proses pembelajaran ini memungkinkan agen otonom untuk beradaptasi, meningkatkan efisiensi, dan menangani berbagai tugas kompleks di lingkungan yang dinamis. Pembelajaran adalah komponen mendasar dari banyak sistem AI agen.

Tidak semua jenis agen AI dapat belajar. Beberapa di antaranya adalah agen refleks sederhana yang secara pasif menerima data dan tidak memiliki kemampuan belajar, serta melakukan tindakan yang telah diprogram secara reaktif sebagai respons.

Ada agen refleks berbasis model yang dapat menalar lingkungannya, dan agen berbasis tujuan proaktif yang dapat mengejar tujuan spesifik, tetapi mereka tidak belajar. Agen berbasis utilitas juga tidak dapat melakukannya, karena mereka menggunakan fungsi utilitas untuk mengevaluasi dan memilih tindakan yang memaksimalkan manfaat keseluruhan.

Agen pembelajaran meningkatkan kinerjanya dari waktu ke waktu dengan beradaptasi dengan pengalaman dan data baru. Agen AI lainnya bekerja dengan aturan atau model yang telah ditentukan sebelumnya, sementara agen pembelajaran terus memperbarui perilaku mereka berdasarkan masukan dari lingkungan.

Hal ini memungkinkan mereka untuk meningkatkan kemampuan pengambilan keputusan mereka dan bekerja lebih baik dalam situasi yang dinamis dan tidak pasti. Agen pembelajaran mewakili potensi penuh alat kecerdasan buatan (AI) dalam menangani tugas pemecahan masalah bertahap dengan intervensi manusia yang minimal.

Agen pembelajaran umumnya terdiri dari 4 komponen utama:

  1. Elemen kinerja: Membuat keputusan berdasarkan basis pengetahuan.

  2. Elemen pembelajaran: Menyesuaikan dan meningkatkan pengetahuan agen berdasarkan masukan dan pengalaman.

  3. Kritik: Mengevaluasi tindakan agen dan memberikan masukan, sering kali dalam bentuk imbalan atau penalti.

  4. Pembuat masalah: Menyarankan tindakan eksplorasi untuk membantu agen menemukan strategi baru dan meningkatkan pembelajarannya.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Jenis pembelajaran agen AI

Machine learning (ML) merupakan tulang punggung dari berbagai jenis pembelajaran agen AI. Hal ini memungkinkan agen untuk mengidentifikasi pola, membuat prediksi, dan meningkatkan kinerja berdasarkan data.

Tiga teknik machine learning utama yang digunakan dalam agen AI adalah pembelajaran yang diawasi, pembelajaran tanpa pengawasan, dan pembelajaran penguatan. Lebih khusus lagi, ini adalah teknik pembelajaran mendalam yang menggunakan neural networks kompleks dengan banyak lapisan untuk memproses data dalam jumlah besar dan mempelajari pola yang rumit.

Pembelajaran dengan pengawasan

Pembelajaran dengan pengawasan melibatkan pelatihan algoritma machine learning pada kumpulan data yang dilabeli, di mana setiap input berkaitan dengan output tertentu. Agen menggunakan informasi ini untuk membangun model prediktif.

Misalnya, chatbot AI dapat dilatih menggunakan percakapan layanan pelanggan dan solusi yang sesuai untuk memberikan respons yang diprediksi. Pendekatan ini banyak diterapkan dalam pengenalan gambar, pemrosesan Speech-to-Text dan diagnosis medis.

Pembelajaran transfer memungkinkan agen AI untuk menggunakan pengetahuan yang diperoleh dari satu tugas dan menerapkannya ke tugas lain. Misalnya, model bahasa besar (LLM) yang dilatih pada kumpulan data umum dapat disempurnakan untuk domain tertentu, seperti pemrosesan teks hukum atau medis.

Pembelajaran tanpa pengawasan

Sebaliknya, pembelajaran tanpa pengawasan memungkinkan agen AI melakukan analisis data pada data yang tidak berlabel untuk menemukan pola dan struktur tanpa pengawasan manusia.

Metode ini berguna dalam tugas-tugas seperti klaster perilaku pelanggan untuk meningkatkan strategi pemasaran, deteksi anomali dalam keamanan siber, dan sistem rekomendasi seperti yang digunakan oleh layanan streaming.

Pembelajaran dengan pengawasan mandiri menggunakan pembelajaran tanpa pengawasan untuk tugas-tugas yang secara konvensional memerlukan pembelajaran dengan pengawasan. Alih-alih mengandalkan kumpulan data untuk sinyal pengawasan,model AI yang dilatih secara mandiri (self-supervised) menghasilkan label implisit dari data yang tidak terstruktur.

Pembelajaran dengan pengawasan mandiri berguna dalam bidang-bidang seperti visi komputer dan pemrosesan bahasa alami (NLP), yang membutuhkan data pelatihan berlabel dalam jumlah besar.

Pembelajaran penguatan

Pembelajaran penguatan adalah proses machine learning yang berfokus pada alur kerja pengambilan keputusan pada agen otonom. Ini membahas proses pengambilan keputusan berurutan dalam lingkungan yang tidak pasti.

Berbeda dengan pembelajaran yang diawasi, pembelajaran penguatan tidak menggunakan contoh perilaku yang benar atau salah yang diberi label. Namun, pembelajaran penguatan juga berbeda dari pembelajaran tanpa pengawasan karena pembelajaran penguatan belajar melalui metode coba-coba dan fungsi penghargaan, bukan dengan mengambil informasi dari pola tersembunyi.

Pembelajaran penguatan juga berbeda dari pembelajaran yang diawasi sendiri karena tidak menghasilkan label palsu atau diukur terhadap kebenaran dasar—ini bukan metode klasifikasi, melainkan pembelajar tindakan.

Agen AI yang menggunakan reinforced learning beroperasi melalui proses uji coba (trial and error), di mana mereka mengambil tindakan dalam lingkungan, mengamati hasil, dan menyesuaikan strategi mereka sesuai kebutuhan. Proses pembelajaran melibatkan penetapan kebijakan yang menghubungkan keadaan dengan tindakan, dengan fokus pada pengoptimalan untuk imbalan kumulatif jangka panjang daripada keuntungan instan.

Seiring waktu, agen menyempurnakan kemampuan pengambilan keputusan melalui interaksi berulang, secara bertahap meningkatkan kemampuannya untuk melakukan tugas-tugas kompleks secara efektif. Pendekatan ini bermanfaat dalam lingkungan dinamis di mana aturan yang telah ditentukan sebelumnya mungkin tidak cukup untuk menghasilkan kinerja yang optimal.

Kendaraan otonom menggunakan reinforced learning untuk mempelajari perilaku mengemudi yang optimal. Melalui uji coba, kecerdasan buatan (AI) terus meningkatkan kemampuannya dalam menavigasi jalan, menghindari rintangan, dan mengambil keputusan berkendara secara real-time. Chatbot yang didukung AI meningkatkan kemampuan percakapan mereka dengan belajar dari interaksi pengguna dan mengoptimalkan respons untuk menyempurnakan interaksi.

Pembelajaran berkelanjutan

Pembelajaran berkelanjutan dalam agen AI mengacu pada kemampuan sistem kecerdasan buatan untuk belajar dan beradaptasi dari waktu ke waktu, menggabungkan data dan pengalaman baru tanpa melupakan pengetahuan sebelumnya.

Tidak seperti machine learning tradisional, yang biasanya melibatkan pelatihan menggunakan kumpulan data tetap, pembelajaran berkelanjutan memungkinkan AI untuk memperbarui modelnya secara terus menerus saat menemukan informasi baru atau perubahan di lingkungannya. Hal ini memungkinkan agen untuk meningkatkan kinerjanya secara waktu nyata, beradaptasi dengan pola baru, situasi yang berkembang, dan kondisi dinamis.

Pembelajaran berkelanjutan penting dalam aplikasi dunia nyata di mana data terus berubah dan AI harus tetap terus diperbarui dengan input baru agar tetap efektif. Hal ini membantu mencegah "catastrophic forgetting", di mana model melupakan pengetahuan lama saat belajar informasi baru, dan memastikan sistem dapat menangani kumpulan tugas dan tantangan yang terus berkembang.

Pembelajaran dan kolaborasi multiagen

Salah satu manfaat agen AI adalah mereka dapat bekerja sama. Dalam arsitektur multiagen, agen AI belajar melalui kolaborasi dan persaingan. Dalam pembelajaran kooperatif, agen-agen berbagi pengetahuan untuk mencapai tujuan bersama, seperti yang terlihat dalam swarm robotics.

Namun, pembelajaran kompetitif terjadi ketika agen memperbaiki strategi mereka dengan bersaing dalam lingkungan yang saling berlawanan, seperti AI perdagangan keuangan.

Bayangkan sebuah jaringan agen AI yang bekerja untuk meningkatkan kualitas perawatan pasien, memperlancar alur kerja, mendorong kepatuhan terhadap pertimbangan etika, dan mengoptimalkan alokasi sumber daya dalam jaringan rumah sakit.

Dalam kerangka kerja multiagen ini, terkadang agen pembelajaran yang lebih canggih yang dilengkapi dengan AI generatif  (gen AI) mengawasi agen refleksif atau yang berbasis tujuan lebih sederhana. Dalam contoh penggunaan ini, setiap agen dapat mewakili peran atau tugas yang berbeda dalam sistem kesehatan, dan mereka akan berkolaborasi serta berbagi informasi untuk meningkatkan hasil perawatan pasien dan efisiensi operasional.

Agen AI

5 Jenis Agen AI: Fungsi Otonom & Aplikasi Dunia Nyata

Pelajari bagaimana AI berbasis tujuan dan berbasis utilitas beradaptasi dengan alur kerja dan lingkungan yang kompleks.

Mekanisme masukan

Dengan mekanisme masukan, sistem AI menerima informasi tentang hasil tindakan atau prediksinya, memungkinkannya menilai akurasi atau efektivitas perilakunya.

Masukan ini, mungkin positif (menguatkan perilaku yang benar) atau negatif (menghukum perilaku yang salah), sangat penting untuk memandu keputusan sistem dan meningkatkan kinerjanya. Masukan adalah komponen penting yang memungkinkan pembelajaran dalam AI, tetapi itu bukan keseluruhan dari proses pembelajaran.

Masukan real-time sangat penting bagi agen AI yang beroperasi di lingkungan dinamis. Sistem otonom, seperti mobil swakemudi dan Robotic Process Automation (RPA), terus mengumpulkan data sensor dan menyesuaikan perilaku mereka berdasarkan masukan langsung. Hal ini memungkinkan mereka untuk beradaptasi dengan perubahan kondisi dan meningkatkan pengambilan keputusan mereka secara real-time.

Masukan pembelajaran tanpa pengawasan

Dalam pembelajaran tanpa pengawasan, masukan tidak secara eksplisit diberikan dalam bentuk data berlabel atau pengawasan langsung. Sebaliknya, agen AI mencari pola, struktur, atau hubungan dalam data itu sendiri.

Misalnya, dalam tugas klaster atau pengurangan dimensi, masukan terjadi secara implisit saat agen menyesuaikan modelnya untuk mewakili struktur yang mendasari data sebaik mungkin.

Model menyempurnakan pemahamannya tentang data melalui metrik seperti minimalisasi kesalahan, misalnya, mengurangi kesalahan rekonstruksi pada autoencoder atau mengoptimalkan kriteria tertentu, seperti memaksimalkan kesamaan data dalam pengelompokan.

Dalam sistem manajemen rantai pasokan yang perlu memprediksi permintaan produk dan mengoptimalkan tingkat persediaan di berbagai gudang dan toko, agen AI dapat menggunakan teknik pembelajaran tanpa pengawasan, seperti klaster atau deteksi anomali, untuk menganalisis volume besar data penjualan historis, tanpa memerlukan label eksplisit atau kategori yang telah ditentukan sebelumnya.

Masukan pembelajaran dengan pengawasan

Dalam pembelajaran dengan pengawasan, masukan bersifat eksplisit dan datang dalam bentuk data berlabel. Agen AI dilatih menggunakan pasangan input/output (misalnya, gambar dengan label yang sesuai). Setelah agen membuat prediksi, masukan diberikan dengan membandingkan output agen dengan label yang benar (kebenaran dasar).

Perbedaan antara output (kesalahan) yang diprediksi dan sebenarnya dihitung, sering kali menggunakan fungsi yang hilang. Masukan ini kemudian digunakan untuk menyesuaikan parameter model sehingga dapat meningkatkan prediksinya dari waktu ke waktu.

Agen AI dapat menggunakan pembelajaran dengan pengawasan untuk memprediksi produk atau layanan mana yang mungkin diminati pelanggan, berdasarkan perilaku masa lalu mereka, riwayat pembelian, atau preferensi pengguna.

Misalnya, solusi AI untuk platform e-commerce dapat menggunakan data historis seperti pembelian dan peringkat sebelumnya sebagai contoh berlabel untuk melatih model yang memprediksi produk yang mungkin ingin dibeli pelanggan selanjutnya, meningkatkan pengalaman pelanggan.

Pembelajaran dengan pengawasan dianggap pembelajaran human-in-the-loop (HITL) karena agen AI mengintegrasikan masukan manusia untuk menyempurnakan model mereka, meningkatkan pengambilan keputusan, dan beradaptasi dengan situasi baru.

Metode ini menggabungkan pembelajaran otomatis dengan keahlian manusia, memungkinkan AI untuk menangani tugas-tugas kompleks dengan lebih efektif sambil meminimalkan kesalahan dan bias. HITL juga dapat diintegrasikan sebagai mekanisme masukan dalam jenis pembelajaran lainnya, tetapi hanya menjadi bagian integral dari proses pembelajaran mandiri.

Masukan reinforced learning

Dalam reinforced learning (RL), masukan diberikan dalam bentuk imbalan atau penalti. Agen RL berinteraksi dengan lingkungan, melakukan tindakan yang mengarah pada hasil yang berbeda. Setelah setiap tindakan, agen menerima masukan berupa imbalan atau hukuman berskala yang menunjukkan seberapa baik atau buruk hasilnya dibandingkan dengan tujuan.

Agen menggunakan masukan ini untuk menyesuaikan kebijakan atau strategi pengambilan keputusannya, dengan tujuan memaksimalkan total imbalan secara kumulatif seiring berjalannya waktu. Siklus masukan ini memungkinkan agen untuk mempelajari tindakan atau strategi yang optimal melalui uji coba, menyempurnakan perilakunya sembari menjelajahi lingkungan.

Masukan pembelajaran yang diawasi sendiri

Dalam pembelajaran tanpa pengawasan (self-supervised learning), agen menghasilkan labelnya sendiri dari data, menciptakan bentuk masukan dari struktur data itu sendiri. Model ini menggunakan sebagian data untuk memprediksi bagian lain, seperti memprediksi kata yang hilang dalam kalimat atau memprediksi frame berikutnya dalam video.

Masukan berasal dari membandingkan prediksi model dengan data aktual yang hilang atau masa depan. Agen belajar dengan meminimalkan kesalahan prediksi, memperbaiki representasi internalnya berdasarkan masukan yang dihasilkan sendiri.

Solusi terkait
Agen AI untuk bisnis

Bangun, terapkan, dan kelola asisten dan agen AI yang kuat yang mengotomatiskan alur kerja dan proses dengan AI generatif.

    Menjelajahi watsonx Orchestrate
    Solusi agen AI IBM

    Bangun masa depan bisnis Anda dengan solusi AI yang dapat Anda percaya.

    Jelajahi solusi agen AI
    Layanan AI IBM Consulting

    Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

    Jelajahi layanan kecerdasan buatan
    Ambil langkah selanjutnya

    Baik Anda memilih untuk menyesuaikan aplikasi dan keterampilan yang dibangun sebelumnya atau membangun dan menerapkan layanan agen khusus menggunakan studio AI, platform IBM watsonx siap membantu Anda.

    Menjelajahi watsonx Orchestrate Jelajahi watsonx.ai