Ein KI-Agent, der z. B. für die Bearbeitung von Kundensupport-Tickets entwickelt wurde, besteht wahrscheinlich aus einem oder mehreren großen Sprachmodellen (LLMs), die verschiedene Tools zur Bewältigung unterschiedlicher Aufgaben verwenden. Der Agenten-Workflow kann die Überwachung eingehender E-Mails, die Suche in einer Wissensdatenbank des Unternehmens und die eigenständige Erstellung von Support-Tickets umfassen.
Die Fehlersuche bei einem solchen Agenten ist komplex, denn sein vielfältiges Verhalten schafft mehrere Punkte, an denen er versagen oder ineffizient sein kann. Mit der Agentenüberwachung können Entwickler jedoch Schritt für Schritt die Sitzungen der Agentenläufe wiederholen und beobachten, was das KI-System wann getan hat. Hat der Agent auf die richtige Dokumentation für den Kundensupport verwiesen? Wie wurden die Tools genutzt, und welche APIs wurden verwendet? Wie hoch war die Latenz der einzelnen Schritte? Wie hoch waren die letztendlichen LLM-Kosten? Wie gut hat der Agent mit anderen kommuniziert oder zusammengearbeitet?
Einen KI-Agenten loszulassen, ohne einen Plan zur Überprüfung seines Verhaltens zu haben, ist so, als würde man einem Teenager eine Kreditkarte geben und sich die daraus resultierende Abrechnung nicht ansehen. Adam Silverman, der COO von Agency AI, erklärte kürzlich im Google for Developers Blog, dass diese Kosten durch die Verwendung verschiedener LLMs für unterschiedliche Aufgaben reduziert werden könnten – einer der vielen Parameter, die zur Optimierung der Kosteneffizienz eines Agenten im Laufe der Zeit angepasst werden können.2
Wenn Sie tiefer in die Materie einsteigen, können Sie das End-to-End-Verhalten des Agenten nachverfolgen, einschließlich der Kosten für jede LLM-Interaktion bei verschiedenen Anbietern (wie Azure oder AWS). Entwickler können ein Dashboard mit solchen Metriken in Echtzeit einsehen, mit Daten aus den verschiedenen Phasen des Lebenszyklus des Agenten. Durch iteratives Benchmarking können die Entwickler dann an der Optimierung ihres Agenten arbeiten.