Memastikan evaluasi diri AI yang andal bahkan lebih menantang di bidang khusus seperti matematika tingkat lanjut dan riset ilmiah. Ini berarti bahwa para pakar manusia sering diperlukan untuk memvalidasi hasil dan menjaga sistem AI tetap andal dan berada di jalur yang benar.

"Ada banyak trik dalam mencoba melakukannya, seperti mengocok jawaban pilihan ganda," Varshney mengatakan.

Menurut Dev Nag, Pendiri dan CEO QueryPal, Evaluator Belajar Mandiri dari Meta menyangkut memperkuat dan meningkatkan penilaian manusia—bukan menghilangkan manusia dari lingkaran.

"Evaluator ini mirip seperti bagaimana seorang guru dapat membuat masalah latihan berdasarkan pemahaman mereka tentang apa yang membuat jawaban yang baik atau buruk," ujar Nag. "Sama seperti AlphaGo yang menggunakan aturan Go sebagai fondasinya sebelum terlibat dalam bermain mandiri, Evaluator Belajar Mandiri membangun kriteria kualitas yang ditetapkan manusia sebelum menghasilkan contoh pelatihan sintetis yang secara implisit menanamkan penilaian manusia."

Bahkan dengan AI pemantauan mandiri, audit berkala dapat menangkap bias atau masalah tersembunyi, kata Dan O'Toole, Presiden dan CEO Arrive AI.

"Menggunakan beberapa model AI untuk melakukan evaluasi yang sama secara independen atau merangkainya secara berurutan, mengurangi kesalahan dan menyoroti potensi masalah," katanya. Kemampuan menjelaskan juga penting. "Rantai pemikiran adalah langkah penting menuju transparansi yang meningkatkan kepercayaan."

O'Toole menekankan bahwa metrik sangat penting untuk bidang-bidang seperti matematika tingkat lanjut dan riset ilmiah. Meta, misalnya, telah menggunakan MT-Bench dan RewardBench untuk evaluasi tujuan umum, katanya, tetapi tolok ukur seperti GSM8K sesuai untuk pemecahan masalah matematika. CRUXEval dapat membantu penalaran kode, sementara tolok ukur khusus domain seperti FactKB, PubMed, dan SciBench dapat membantu memastikan bahwa model memenuhi kebutuhan spesifik.

Nag menekankan bahwa mengukur kinerja dan memastikan keandalan sangat penting, terutama di bidang khusus. Dia percaya bahwa tolak ukur utama harus dicerminkan oleh keselarasan antara hasil dengan penilaian yang dibuat oleh pakar manusia di bidang tersebut.

“Kesesuaian 88,7% Evaluator Belajar Mandiri dengan penilaian manusia di RewardBench adalah dasar yang kuat, tetapi melacak faktor-faktor lain, seperti konsistensi, dapat dijelaskan, dan kemampuan sistem untuk mengidentifikasi berbagai kasus tepi sama pentingnya,” katanya. "Sama seperti bermain mandiri AlphaGo yang divalidasi oleh kinerjanya melawan juara manusia, sistem evaluator harus diuji secara teratur terhadap panel pakar domain."

Jen Clark, yang mengarahkan layanan konsultasi dan teknologi di EisnerAmper, menekankan bahwa pengembangan AI membutuhkan kerangka kerja terstruktur untuk memastikan keamanan dan kemajuan yang efektif.

"Ketika AI terus berkembang, sangat penting untuk mengandalkan metodologi yang telah mendukung riset manusia, seperti metode ilmiah, komunitas yang kuat, dan jaringan kolaborasi," katanya. "Memfokuskan upaya di sini sangat penting untuk keamanan AI yang bersumber dari banyak pihak serta mengelola kecepatan dan skala pengembangan AI."