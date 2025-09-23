Kecerdasan Buatan

IBM dinobatkan sebagai pemimpin dalam Penilaian Vendor Produk Teknologi Evaluasi Gen AI di Seluruh Dunia 2025 IDC Marketscape

Penyusun

Maryam Ashoori

VP of Product and Engineering, watsonx.governance

IBM

Manish Bhide

Distinguished Engineer and CTO, watsonx.governance

IBM

Sahiba Pahwa

Product Marketing, watsonx.governance

IBM

Kami percaya pengakuan ini mencerminkan dampak yang berkembang dan inovasi berkelanjutan dari IBM watsonx.governance—dan Komitmen IBM untuk memenuhi tuntutan modern akan AI yang tepercaya, dapat diskalakan, dan bertanggung jawab.

“Perusahaan dengan lingkungan teknologi yang beragam mungkin menemukan bahwa IBM mewakili pemasok netral—misalnya, tidak terikat dengan layanan cloud tertentu. Selain itu, perusahaan yang menghargai rangkaian penawaran IBM yang saling melengkapi yang lebih luas, termasuk dokumentasi otomatis, batasan, dan penawaran keamanan, harus mempertimbangkan IBM,” kata laporan IDC MarketScape.

Model analisis vendor IDC MarketScape dirancang untuk memberikan gambaran umum tentang kecocokan kompetitif teknologi dan pemasok di pasar tertentu. Metodologi penelitian ini menggunakan metodologi penilaian yang ketat berdasarkan kriteria kualitatif dan kuantitatif yang memberikan satu ilustrasi grafis tentang posisi setiap pemasok dalam pasar tertentu. Skor Kemampuan mengukur produk pemasok, go-to-market, dan eksekusi bisnis dalam jangka pendek. Skor Strategi mengukur penyelarasan strategi pemasok dengan kebutuhan pelanggan dalam jangka waktu 3-5 tahun. Pangsa pasar pemasok ditunjukkan oleh ukuran ikon

5 kategori metodologi IDC MarketScape 

Kerangka kerja evaluasi IDC MarketScape yang ketat memberikan penilaian pihak ketiga yang objektif yang dapat dipercaya organisasi ketika membuat keputusan teknologi evaluasi model AI.

Kerangka kerja ini mempertimbangkan 5 kategori berikut:

  1. Kepuasan pelanggan: Wawancara langsung dengan pelanggan memberikan insight dunia nyata tentang keberhasilan implementasi, ROI, dan dukungan berkelanjutan, tidak hanya tentang penawaran saat ini tetapi tentang visi dan peta jalan mereka untuk mengatasi tantangan risiko yang muncul.
  2. Fungsionalitas atau penawaran: Laporan ini menilai netralitas, seperti kemudahan penggunaan terlepas dari alat yang digunakan untuk membangunnya atau di mana mereka dijalankan, atau penyesuaian dalam hal dasbor dan metrik.
  3. Inovasi Teknologi: Vendor dinilai berdasarkan kemampuan atau penawaran berbeda yang memberikan nilai penting kepada pelanggan.
  4. Jangkauan layanan: Laporan ini mempertimbangkan cakupan kemampuan dari evaluasi RAG, dengan perhatian khusus pada kemampuan mengevaluasi agen.
  5. Portofolio: Perhatian khusus diberikan pada sejumlah penawaran yang saling melengkapi dengan penyetelan model seperti pemantauan produksi, tata kelola model, dan keamanan model, serta apakah alat evaluasi terintegrasi secara mulus di seluruh siklus hidup dari pengembangan hingga produksi.

Kekuatan IBM watsonx.governance 

Apa yang kami yakini merupakan kekuatan IBM:

1. Pengembangan dan tata kelola model yang efisien

IBM watsonx.governance menawarkan pendekatan terpadu untuk mengelola seluruh siklus hidup AI, mulai dari pengembangan hingga penerapan. Dengan kuesioner yang dipandu, pengguna dapat mendefinisikan masalah bisnis, membantu menemukan dan mengidentifikasi potensi risiko, serta mengungkapkan strategi mitigasi.

Dimensi risiko ini dipetakan ke dalam metrik yang dapat digunakan selama proses evaluasi. Selain itu, proses terintegrasi ini secara otomatis mengekstrak metadata selama proses evaluasi, menyimpannya dalam lembar fakta terpusat dan memberikan catatan transparan tentang proses pengembangan aplikasi, termasuk informasi tentang model, templat prompt, dan banyak lagi. Dengan memasukkan teknologi evaluasi ke dalam siklus hidup yang terintegrasi erat ini, yang mencakup dokumentasi, kami membedakan diri kami sebagai solusi ideal untuk pengguna perusahaan.

2. Identifikasi risiko secara otomatis pada waktu proses dengan dasbor dinamis

Dengan mengintegrasikan data risiko, penilaian risiko dan pengendalian, peristiwa kerugian internal dan eksternal, serta indikator atau metrik risiko utama, tim dapat memperoleh pandangan komprehensif tentang postur risiko mereka di seluruh perusahaan. Ini dapat membantu perusahaan mengidentifikasi secara otomatis risiko saat timbul, secara real-time. Selain itu, IBM watsonx.governance memberikan peringkat risiko otomatis, sehingga tim risiko mendapatkan penilaian tingkat risiko yang jelas dan objektif. Dasbor dinamis dan bagan memfasilitasi identifikasi, pengukuran, pemantauan, dan analisis yang cepat, sementara peringatan otomatis memungkinkan remediasi tepat waktu ketika ambang risiko dilanggar.

3. Metrik siap pakai

Dengan IBM watsonx.governance, pengguna memiliki akses ke berbagai metrik yang dibangun sebelumnya untuk mengevaluasi kinerja dan efektivitas sistem AI. Ini termasuk metrik untuk identifikasi penyimpangan, kinerja model, dan area utama lainnya:

  • HAP
  • pii
  • Injeksi Prompt
  • Relevansi konteks
  • Kesetiaan
  • Kesamaan jawaban
  • Relevansi jawaban
  • Tingkat keberhasilan
  • Presisi rata-rata
  • Peringkat timbal balik
  • Permintaan yang gagal
  • Dan masih banyak lagi

Metrik ini, antara lain memberikan kerangka kerja yang komprehensif untuk mengevaluasi kinerja dan efektivitas sistem AI. Selain itu, pengguna dapat membuat metrik untuk menyesuaikan evaluasi mereka dengan persyaratan bisnis dan profil risiko tertentu, yang memberikan kerangka kerja evaluasi yang komprehensif.

4. Pengoptimalan dan eksperimen agen yang efisien dan tangkas

Inovasi lain oleh tim IBM adalah "Studio Evaluasi." Fitur ini memberikan dua kemampuan utama:

  1. Optimasi prompt dengan membandingkan versi prompt yang berbeda secara berdampingan dan
  2. Pelacakan eksperimen untuk Agen

Studio evaluasi membantu pengembang mengevaluasi berbagai versi prompt pada kumpulan data dan membandingkan hasilnya dalam antarmuka pengguna yang intuitif.  Fitur ini juga memberikan dukungan untuk peringkat khusus yang unik di mana pengguna dapat membuat skema peringkat khusus dengan memilih metrik dan memberikan bobot berdasarkan tingkat kepentingan.  Ini membantu pengguna dengan mudah mengoptimalkan prompt yang akan digunakan dalam alat atau agen. 

watsonX.governance, studio evaluasi juga mendukung pelacakan eksperimen yang merupakan alat yang ampuh untuk membangun sistem AI agen yang lebih baik. Anda dapat dengan cepat menyiapkan eksperimen, mencoba berbagai varian (agen) dan menandainya dengan detail seperti model, retriever, atau prompt yang Anda gunakan. Perbandingan berdampingan berdasarkan latensi, biaya, dan kualitas (seperti kesetiaan) memudahkan Anda untuk melihat mana yang bekerja paling baik. Yang terpenting, platform ini membantu Anda menyimpan kode yang tepat untuk setiap proses, membebaskan waktu pengembang dari menyimpan setiap versi dan membiarkan mereka berfokus membangun dan meningkatkan agen.

5. Evaluator terintegrasi: Pembeda pasar yang utama

Solusi IBM watsonx.governance mendukung evaluator terintegrasi dan siap pakai berbasis dekorator, yang menetapkan standar baru untuk tata kelola agen, memberikan pelanggan kemampuan untuk mengevaluasi metrik dan menggunakannya untuk memutuskan alur eksekusi Agen. IBM watsonx.governance juga mendukung evaluasi agen offline melalui evaluator agen yang membantu mengevaluasi agen AI pada data pengujian saat mereka dibangun. Fitur utama meliputi:

  • Evaluator terintegrasi: Evaluator terintegrasi dapat digunakan untuk menghitung metrik setiap kali alat atau node dalam Agen LangGraph dijalankan. Ini dapat digunakan untuk menghitung beragam metrik seperti relevansi konteks, kesetiaan, halusinasi pemanggilan alat, dan banyak lagi. Alur eksekusi agen dapat disesuaikan berdasarkan nilai metrik yang dihitung. Sebagai contoh, jika dalam aplikasi RAG Agen relevansi konteksnya rendah, tidak ada gunanya menghasilkan jawaban menggunakan konteks yang diambil.  Oleh karena itu, alur agen dapat diubah berdasarkan nilai relevansi konteks yang dihitung untuk tidak menuju ke node pembuatan jawaban, tetapi langsung merespons kembali ke pengguna.
  • Kemudahan penggunaan: Cara umum untuk menggunakan evaluator terintegrasi adalah dengan menambahkan kode khusus sebagai node dalam aplikasi LangGraph. Evaluasi terintegrasi dari watsonx.governance tersedia sebagai dekorator python yang membuatnya sangat mudah digunakan saat membangun Aplikasi AI Agen.

Alat inovatif ini menawarkan visibilitas dan kontrol yang tak tertandingi atas kinerja agen, memungkinkan pelanggan untuk mengoptimalkan alur kerja mereka dan mendorong hasil yang lebih baik.

Mendukung kebutuhan yang berkembang dari tim AI/ML Ops: Peta jalan masa depan

Untuk lebih memberdayakan tim AI/ML Ops, IBM berkomitmen untuk mendorong inovasi dengan serangkaian fitur baru. Dalam rilis mendatang, Anda akan menikmati fitur tata kelola agen tambahan, seperti:

  1. Pemantauan produksi tingkat lanjut untuk AI agen: watsonx.governance dari IBM akan dilengkapi untuk menawarkan pengawasan berkelanjutan atas aplikasi agen, memulai peringatan ketika salah satu metrik yang ditentukan melampaui batas yang telah ditentukan sebelumnya. Fitur ini memastikan manajemen proaktif dan intervensi tepat waktu untuk mempertahankan kinerja AI yang optimal dan tepercaya.
  2. Katalog Agen yang Diatur: Ini akan memungkinkan pengguna untuk menambahkan tata kelola pada proses penambahan alat dan agen ke katalog pusat. Ini akan membantu perusahaan memastikan bahwa hanya alat dan agen tepercaya yang disediakan bagi pengembang mereka.

Tata kelola tidak lagi menjadi penghalang yang ditentukan oleh kepatuhan dan audit. Fitur ini kini menjadi penggerak penskalaan, memberdayakan tim untuk membangun sistem gen AI yang tangguh, transparan, dan siap untuk penerapan perusahaan. Tata kelola menyangkut membangun agen AI, aplikasi, dan model yang efisien, aman, dan dapat dipercaya sejak awal.

Seiring dengan terus berkembangnya gen AI, watsonx.governance memungkinkan tim untuk bergerak cepat dengan penuh percaya diri, transparansi, dan kontrol. Pendekatan kami pada evaluasi berfokus pada manajemen risiko real-time, manajemen eksperimen otomatis, serta pelacakan dan transparansi di setiap tahap. Dibangun dengan mempertimbangkan kompleksitas dunia nyata, watsonx.governance membantu tim meningkatkan skala secara bertanggung jawab, mengurangi risiko, dan membuka potensi penuh gen AI tanpa memperlambat Anda.

