Memurnikan AI: Pemfilteran HAP terhadap konten berbahaya

Wanita sedang menuangkan air bersih ke dalam gelas

Penyusun

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

World Wide Web memfasilitasi koneksi, mempercepat pertumbuhan bisnis dan memberikan akses mudah ke pengetahuan yang telah ada selama berabad-abad.

Namun, meskipun memiliki banyak manfaat, hal ini juga dapat menjadi tempat berkumpulnya ujaran kebencian dan konten berbahaya. Dan konten negatif ini mengalir ke dalam lautan data internet yang lebih besar, yang digunakan untuk melatih banyak model dasar saat ini, seperti model bahasa besar (LLM) dan kemampuan pemrosesan bahasa alami (NLP).

Rembesan bahasa ofensif ini mengancam integritas dan kegunaan model kecerdasan buatan (AI). Mengapa? Karena jika LLM dilatih dengan kumpulan data yang mencakup perilaku manusia yang penuh kebencian, mereka dapat menghasilkan output yang berbahaya. Terlebih lagi, konten berbahaya ini juga dapat masuk ke dalam model AI selama proses penyetelan halus, pengoptimalan melalui generasi dengan dukungan pengambilan data (RAG), atau saat LLM berinteraksi dengan pengguna.

Penyaringan dan penghapusan konten ofensif sangat penting untuk memastikan bahwa model AI aman, inklusif, dan tidak bias, sehingga memberikan pengalaman positif bagi pengguna. Salah satu solusi tersebut adalah dengan menerapkan pemfilteran sistematis untuk mendeteksi ujaran kebencian, pelecehan, dan kata-kata kotor (HAP), yang dikenal sebagai pemfilteran HAP.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Apa itu pemfilteran HAP?

Pemfilteran HAP adalah sistem yang menggunakan model klasifikasi untuk mendeteksi dan menghapus ujaran kebencian, bahasa kasar dan kata-kata kotor dari input dan output LLM.

Apa itu model klasifikasi?

Untuk memahami pemfilteran HAP secara menyeluruh, penting untuk memahami konsep model klasifikasi. Model klasifikasi adalah jenis machine learning yang mengelompokkan titik data ke dalam kategori yang telah ditentukan sebelumnya, yang disebut kelas. Model ini mempelajari karakteristik masing-masing kelas dari data input dan kemudian menetapkan kelas yang sesuai kepada data baru berdasarkan karakteristik tersebut. Filter email spam, sebagai contoh, menggunakan algoritme klasifikasi. Pemfilteran HAP, model klasifikasi ini dapat lebih spesifik disebut sebagai pengklasifikasi kalimat atau lebih sederhana sebagai filter HAP atau detektor HAP.

Apa yang dianggap sebagai konten HAP?

Ucapan kebencian, bahasa kasar, dan kata-kata kotor dapat didefinisikan sebagai berikut:

  • Ujaran kebencian: Ekspresi kebencian terhadap individu atau kelompok berdasarkan atribut seperti ras, agama, asal etnis, orientasi seksual, kecacatan, atau jenis kelamin. Ujaran kebencian menunjukkan niat untuk menyakiti, mempermalukan, atau menghina anggota suatu kelompok, atau mempromosikan kekerasan atau gangguan sosial.

  • Bahasa kasar: Bahasa kasar atau menyakitkan yang dimaksudkan untuk menggertak, merendahkan, atau merendahkan seseorang atau sesuatu.

  • Kata-kata kotor: Kata-kata beracun seperti kata-kata kasar, penghinaan atau bahasa yang eksplisit secara seksual.

Bagaimana cara kerja pemfilteran HAP?

Dalam praktiknya, pengklasifikasi kalimat pemfilteran HAP menilai setiap kata dari teks input atau output model untuk menentukan apakah itu berisi konten HAP. Kemudian, model ini memberikan skor yang mewakili kemungkinan bahwa konten HAP hadir, mungkin dari 0 hingga 1. Dalam hal ini, skor yang lebih dekat ke 1 menunjukkan kemungkinan konten HAP yang lebih tinggi. Bergantung pada ambang batas yang ditetapkan pengguna untuk konten HAP (seperti "skor yang lebih besar dari 0,5 = HAP"), model tersebut kemudian akan memberikan label pada setiap kalimat yang mengindikasikan apakah kalimat tersebut mengandung HAP atau tidak.

Akhirnya, konten HAP dapat ditandai dan dihapus jika ada dalam data pra-pelatihan. Atau, jika konten HAP adalah output, maka dapat diganti dengan pesan pagar pembatas yang mengindikasikan bahwa output tersebut berisi teks berbahaya yang telah dihapus.

Akademi AI

Kepercayaan, transparansi, dan tata kelola di AI

Kepercayaan pada AI dapat dikatakan merupakan topik paling penting dalam AI. Dan juga merupakan topik yang cukup rumit. Kami akan menguraikan isu-isu seperti halusinasi, bias, dan risiko, dan menunjukkan langkah-langkah untuk mengadopsi AI secara etis, bertanggung jawab, dan adil.

Contoh penggunaan untuk filter HAP

Menurut Riset IBM, saat ini ada tiga contoh penggunaan utama untuk filter HAP:

  • Memfilter data pelatihan LLM
  • Menyelaraskan model menggunakan pembelajaran penguatan
  • Mengontrol output AI generatif
Memfilter data pelatihan LLM

LLM biasanya dilatih pada berbagai sumber data, beberapa di antaranya dapat berisi konten yang penuh kebencian atau tidak pantas. Pemfilteran HAP dapat membantu mencegah LLM belajar dari konten tersebut. Ini sering terjadi selama pra-pemrosesan data ketika masih ada volume data mentah yang besar.

Menyelaraskan model menggunakan pembelajaran penguatan

Model HAP juga digunakan selama penyelarasan. Misalnya, penyelarasan melalui pembelajaran penguatan menghargai output berdasarkan bagaimana mereka menyelaraskan dengan tujuan yang dimaksudkan. Jika hadiah dinilai menggunakan filter HAP, hadiahnya bisa berupa skor "non-HAP", yang kemudian dilatih oleh model untuk dimaksimalkan.

Mengontrol output AI generatif

Model HAP dapat membantu mengontrol output model AI generatif, tanpa melatih ulang model aslinya. Kontrol ini memerlukan modifikasi proses pembuatan untuk menilai prediksi model menggunakan metode penilaian asli serta penilaian HAP untuk memastikan konten yang dapat diterima dan bebas dari kebencian.

Penting untuk dicatat bahwa selain pemfilteran HAP, sering kali ada langkah pembersihan data, kualitas data, dan penyelarasan lainnya yang diambil untuk mengurangi contoh data yang bias atau tidak pantas, atau memasukkan atau mengeluarkan modelnya.

Filter HAP generasi berikutnya dari IBM: sumber terbuka dan rentang ofensif

Seperti banyak teknologi yang berdekatan dengan AI, inovasi bergerak cepat di dunia pemfilteran HAP. Peneliti IBM mengidentifikasi dua cara untuk meningkatkan filter HAP: melalui model sumber terbuka yang lebih kecil dan alat identifikasi rentang ofensif.

Filter HAP sumber terbuka yang lebih kecil

Dalam dunia yang ideal, pemfilteran HAP akan terjadi pada setiap tahap siklus hidup LLM. Tetapi penggunaan ini akan membutuhkan kecepatan yang kurang dari sebagian besar filter HAP saat ini karena ukurannya yang besar.

Solusi ini menginspirasi filter HAP IBM yang lebih cepat dan lebih baru: Granite-Guardian-HAP-38m. Model encoder 38 juta parameter ini lebih kecil dari pendahulunya dengan 125 juta parameter (Granite-Guardian-HAP-125m). Dengan demikian, ini dapat berjalan delapan kali lebih cepat pada unit pemrosesan pusat (CPU) dan dua kali lebih cepat pada unit pemrosesan grafis (GPU) (keduanya ditemukan di ponsel cerdas dan PC) untuk memfilter data dengan cepat di setiap tahap siklus hidup LLM.

Varian dari kedua model pemfilteran HAP tersedia di watsonx.ai. Tetapi untuk terus mendorong ekosistem AI yang dapat dipercaya, IBM telah membuka sumber terbuka kedua filter HAP di Hugging Face

Identifikasi rentang ofensif

Untuk memperkenalkan perincian dan keberagaman bahasa yang lebih besar ke filter HAP, peneliti IBM mengembangkan alat visualisasi HAP yang disebut MUTED: A MUltilingual Targeted Demonstration.

Lebih dari sekadar anotasi tingkat kalimat, MUTED memecah kalimat menjadi “target” dan rentang ofensif (atau, argumen ofensif). Misalnya, dalam kalimat “Orang-orang itu adalah driver yang buruk,” targetnya adalah “orang-orang itu” dan rentang ofensifnya adalah “driver yang buruk.” Idenya adalah bahwa MUTED akan mengidentifikasi rentang ofensif, memberi peringkat intensitasnya menggunakan peta panas dan kemudian menyembunyikannya dari pengguna jika dianggap berbahaya.1

Catatan kaki

1 "Muted: Identifikasi dan Visualisasi Ucapan Menyinggung Bertarget Multibahasa," Asosiasi Linguistik Komputasi, Desember 2023.

Solusi terkait
IBM Granite

Model bahasa AI generasi ketiga kami telah hadir. Sesuai dengan tujuannya dan bersumber terbuka, model yang dirancang untuk pemakaian di perusahaan ini memberikan kinerja luar biasa terhadap tolok ukur keselamatan dan di berbagai tugas perusahaan mulai dari keamanan siber hingga RAG.

Sambutlah Granite
Model dasar

Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

Temukan watsonx.ai
Solusi dan layanan tata kelola AI

Buka potensi penuh AI Anda dan lihat bagaimana tata kelola AI dapat membantu meningkatkan kepercayaan karyawan Anda pada AI, mempercepat adopsi dan inovasi, serta meningkatkan kepercayaan pelanggan.

Jelajahi solusi tata kelola AI
Ambil langkah selanjutnya

IBM Granite adalah kelompok model AI kami yang terbuka, berkinerja tinggi, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Sesuai dengan tujuan dan bersumber terbuka, berbagai model yang siap digunakan oleh perusahaan ini memberikan kinerja luar biasa terhadap tolok ukur keamanan dan di berbagai tugas perusahaan mulai dari keamanan siber hingga RAG.

Sambutlah Granite