Diperkirakan bernilai sekitar USD 5 miliar pada tahun 2024, pasar agen AI diproyeksikan akan tumbuh menjadi sekitar USD 50 miliar pada tahun 2030.1 Namun, seiring dengan semakin banyaknya perusahaan yang membangun agen AI untuk merampingkan dan mengotomatiskan alur kerja, tantangan baru muncul dalam memantau perilaku semua agen tersebut untuk memastikan bahwa agen berfungsi sebagaimana mestinya. AgentOps sekumpulan praktik terbaik yang berkembang yang diuraikan secara umum dalam mengevaluasi kinerja agen, yang dibangun di atas aturan umum yang telah ditetapkan di bidang terkait DevOps (yang menstandarkan pengiriman perangkat lunak) dan MLOps (yang melakukan hal yang sama untuk model machine learning).

Tetapi mengelola agen tidak semudah membangun perangkat lunak tradisional atau bahkan model AI. Sistem “Agen” kompleks dan dinamis, dan pada dasarnya melibatkan perangkat lunak dengan pikirannya sendiri. Agen bertindak secara mandiri, memecah tugas, membuat keputusan, dan memiliki perilaku yang tidak pasti. Ide di balik AgentOps adalah membawa observabilitas dan keandalan ke dalam ranah yang bisa jadi mengalami kekacauan, sehingga pengembang dapat mengamati dalam kotak hitam interaksi agen dan perilaku agen lainnya.

Seluruh ekosistem harus mengelola AgentOps, bukan hanya satu alat; sebuah studi baru-baru ini menemukan 17 alat di Github dan repositori kode lainnya yang relevan dengan praktik ini, mulai Agenta hingga LangSmith sampai Trulens (Ada satu alat AgentOps yang diberi nama dengan ambisius "AgentOps"). Semua alat ini biasanya menyediakan dukungan pada kerangka kerja agen pilihan pengembang, baik itu Agen watsonx IBM atau SDK Agen dari OpenAI. Di bidang yang kompetitif ini, banyak platform dan kerangka kerja populer yang bermunculan, termasuk AutoGen, LangChain, dan CrewAI (yang terakhir dioptimalkan untuk orkestrasi sistem dengan banyak agen).