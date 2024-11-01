Was ist MetaGPT?

Autoren

Vanna Winland

AI Advocate & Technology Writer

Meredith Syed

AI Developer Advocate Lead

Was ist MetaGPT?

MetaGPT ist ein Open Source Framework für Multiagenten, das den Einsatz von menschlichem prozeduralem Wissen und KI-Agenten basierend auf großen Sprachmodellen (LLMs) zum Entwickeln einer breiten Palette von Softwarelösungen orchestriert. Als KI-Softwareunternehmen verfügt MetaGPT über spezialisierte KI-Agenten, die Funktionen übernehmen, die denen in traditionellen Softwareunternehmen ähneln.

MetaGPT ist die proprietäre Technologie von DeepWisdom, das von Chenglin Wu gegründet wurde. Das Framework gewann auf GitHub schnell an Popularität und weckte das Interesse an dem zugrunde liegenden Ziel von MetaGPT, die Weiterentwicklung der natürlichsprachlichen Programmierung mithilfe von Multiagentensystemen (MAS) voranzutreiben.

Das vielfach eingesetzte Forschungspapier „MetaGPT: Metaprogramming for A Multi-Agent Collaborative Framework“ erläutert die Orchestrierung der Agentenzusammenarbeit im Framework. Während die Forschung im Bereich der LLM-Orchestrierung und KI-Agenten fortgesetzt wird, leistet MetaGPT einen frühen Beitrag dazu und bietet einen unkomplizierten Approach® zur Zusammenarbeit mit mehreren KI-Agenten unter Verwendung bekannter Workflows.

Was ist Multiagenten-Kollaboration?

Agenten, die innerhalb eines Multiagentensystems (MAS) agieren, bleiben autonom, kooperieren und koordinieren aber auch in agentischen Strukturen oder Frameworks wie MetaGPT.1 Ein MAS koordiniert einzelne Agenten, die in ihrer Umgebung arbeiten und interagieren, um komplexe Aufgaben zu erledigen und ein gemeinsames Ziel zu erreichen. Diese Idee ist Teil der kollektiven Intelligenz, einem populären Konzept, das manchmal mit AGI in Verbindung gebracht wird.

Ein Multiagentensystem besteht aus einem Netzwerk von Problemlösungsagenten, die zusammenarbeiten, um Herausforderungen zu bewältigen, die über die Kapazität eines einzelnen Agenten hinausgehen.arabische Ziffer Eine der größten Herausforderungen bei der Gestaltung eines effektiven MAS ist die Koordinierung der Agenten, um ihre Zusammenarbeit bei der Erreichung eines gemeinsamen Ziels sicherzustellen. Eine erfolgreiche Zusammenarbeit hängt von der Fähigkeit jedes Handelnden ab, individuelle Aufgaben zu lösen, sowie von seiner Fähigkeit, effektiv miteinander zu interagieren.3

Bei der Planung einer MAS-Umgebung sollten Sie Folgendes berücksichtigen:

  • Die Einschränkungen, die Aktivitäten anderer Bearbeiter für die Entscheidungsfindung eines Bearbeiters mit sich bringen.
  • Die Einschränkungen, die sich aus den Verpflichtungen eines Agenten gegenüber anderen in Bezug auf die von ihm verfügbaren Aktionen ergeben.
  • Und die unvorhersehbare Entwicklung der Welt, die durch externe, nicht modellierte Faktoren verursacht wird.4

Ein Ansatz für diese Designherausforderung ist die Orchestrierung der Zusammenarbeit von Bearbeitern durch explizite Modellierung der Teamarbeit. Dieses multikollaborative Entwurfsmuster gliedert eine komplexe Prompt auf und delegiert die abstrahierten Aufgaben an Agenten, die sie auf der Grundlage ihrer speziellen Rollen ausführen.5

Innerhalb des kollaborativen Multiagent-Frameworks von MetaGPT arbeitet ein Team von KI-Agenten nach einem strukturierten Workflow, der von Standardarbeitsanweisungen (SOPs) geleitet wird, die unterschiedliche Rollen und Anweisungen definieren. Durch die Integration von Kommunikationsprotokollen und optimierten Workflows in LLM-gesteuerte Multiagentensysteme können Benutzer Anwendungen mit einer einzigen Eingabezeile erstellen.

KI-Agenten

5 Arten von KI-Agenten: Autonome Funktionen und Anwendungen in der echten Welt

Erfahren Sie, wie sich zielgerichtete und dienstprogrammbasierte KI an Workflows und komplexe Umgebungen anpassen kann.
Erstellen, bereitstellen und überwachen Sie KI-Agenten

Wie funktioniert MetaGPT?

MetaGPT fungiert als kollaboratives Multiagent-Framework, das in der Lage ist, komplexe Aufgaben zu lösen. Das Multiagenten-Collaboration-Framework simuliert ein ganzes Softwareunternehmen mit spezialisierten Agenten, die auf der Grundlage von Standardbetriebsverfahren und einem Fließbandparadigma zur Aufgabenaufteilung interagieren. Jeder Agent spielt entsprechend seiner Funktionen innerhalb des Softwareunternehmens eine spezialisierte Rolle. Das Framework umfasst zum Beispiel Agenten, die als Produktmanager, Architekten, Projektmanager und Ingenieure fungieren und den gesamten Prozess eines Softwareunternehmens bereitstellen.

Diese Agenten in ihren verschiedenen Rollen agieren innerhalb eines virtuellen Arbeitsbereichs, um eine einzeilige Anforderung als Eingabe und Ausgabe von verschiedenen Softwarelösungen zu erfassen. Diese Eingabe umfasst Datenstrukturen, Anwendungsprogrammierschnittstellen (APIs), Wettbewerbsanalysen und Dokumente. Agenten kommunizieren über strukturierte Outputs, die auf den Anforderungen eines Fließbandparadigmas basieren. Jeder Agent generiert die notwendigen Informationen, um den nächsten Agenten aufzufordern, das kollektive Ziel zu erreichen: eine Anwendung auf der Grundlage des Prompts zu entwickeln. Dieser inkrementelle Entwicklungsprozess ist darauf zurückzuführen, wie MetaGPT menschliche Arbeitsabläufe integriert, um die Koordination einer komplexen Aufgabe zu optimieren.

Menschliches prozedurales Wissen für die Zusammenarbeit mit mehreren Agenten

Standardarbeitsanweisungen wurden in verschiedenen Bereichen übernommen, da sie eine kritische Rolle bei der Unterstützung der Aufgabenzerlegung und der effektiven Koordination spielen.6 In der Softwareentwicklung fördern SOPs die Zusammenarbeit zwischen Teams, indem sie Projektaufgaben in kleinere, aktionsorientierte Verfahren zerlegen, die dann bestimmten, spezialisierten Rollen zugewiesen werden. MetaGPT kodiert SOPs in Promptsequenzen, um Multiagenten-Workflows zu organisieren und zu fördern. SOP-Workflows führen eine Struktur und Möglichkeiten zur Verfeinerung ein. 

Beispielsweise wird der Projektmanager-Agent zum Prompt eines Produktanforderungsdokuments (PRD) aufgefordert. Der Produktmanager-Agent erhält einmal einen Prompt und wird dann gebeten, bestimmte Elemente der PRD aufgrund der schrittweisen Entwicklung des Projekts zu verfeinern. Beispielsweise wird der Agent angewiesen, innerhalb der PRD einen Abschnitt für „Produktziele“ zu erstellen. Anschließend kommt erneut die Aufforderung, diese Ziele zu verfeinern, indem die ursprünglichen Produktziele aktualisiert werden, um sicherzustellen, dass sie mit der aktuellen Projektrichtung übereinstimmen.7 Diese Verfeinerungsmethode wird verwendet, um sicherzustellen, dass die globale Aufgabe von allen Agenten erkannt wird und zusammenhängend ist.

Im folgenden Beispiel wird der Produktmanager-Agent Prompt, eine Anforderungsanalyse zu erstellen. Nach diesem ersten Prompt wird der Agent aufgefordert, eine verfeinerte Analyse zu erstellen, bei der alle neuen Funktionen und Verbesserungen aus der laufenden Zusammenarbeit berücksichtigt werden.

Prompt zur Anforderungsanalyse: „Geben Sie eine detaillierte Analyse der Anforderungen an.“8

Prompt zur verfeinerten Analyse: „Überprüfen und verfeinern Sie die bestehende Anforderungsanalyse zu einer String-Liste, um sie an die sich aufgrund der inkrementellen Entwicklung ändernden Anforderungen des Projekts anzupassen. Stellen Sie sicher, dass die Analyse alle neuen Funktionen und Verbesserungen abdeckt, die für den verfeinerten Projektumfang erforderlich sind.“9

Dieses Beispiel veranschaulicht ein PRD, das als standardisierte Ausgabe generiert und vom Produktmanager-Agenten an den Architekt-Agenten weitergeleitet wird. Der SOP-basierte Prompt für jede generierte Ausgabe wird neben dieser aufgeführt. Beachten Sie, dass der Prompt ebenfalls auf dem SOP-Workflow basiert, einschließlich Anforderungsdefinitionen, Methoden zur Aufgabenbearbeitung und der Reihenfolge, in der diese zu erledigen sind:

Benutzeraufforderung„Entwickeln Sie eine React-basierte Webanwendung für Vermögensverwalter, mit der diese die Portfolios ihrer Kunden überprüfen und ihnen geeignete Fonds empfehlen können. Diese Anwendung muss in den USA, im Vereinigten Königreich und in Spanien funktionieren.“

Ursprüngliche Anforderungen
Prompt-Anweisung: „Platzieren Sie hier die Anforderungen des ursprünglichen Benutzers.“10

„Entwickeln Sie eine React-basierte Webanwendung für Vermögensverwalter, mit der diese die Portfolios ihrer Kunden überprüfen und ihnen geeignete Fonds empfehlen können. Diese Anwendung muss in den USA, im Vereinigten Königreich und in Spanien funktionieren.“

Produktziele 
Prompt-Anweisung: „Geben Sie bis zu drei klare, orthogonale Produktziele an.“11

  1. Entwickeln Sie eine sichere und zuverlässige Anwendung für Vermögensverwalter.
  2. Gewährleisten Sie mehrsprachige Unterstützung für Englisch, Spanisch und regionale Varianten.
  3. Erstellen Sie eine intuitive und benutzerfreundliche Oberfläche für das Portfolio-Management und Empfehlungen.

Benutzer-Stories 
Eingabeaufforderung: „Geben Sie bis zu 3 bis 5 szenariobasierte Benutzer-Stories an.“12

  1. Als Vermögensverwalter möchte ich die Portfolios meiner Kunden überprüfen und eine individuelle Beratung anbieten.
  2. Als Vermögensverwalter möchte ich meinen Kunden Fonds empfehlen, die auf ihren Anlagezielen und ihrer Risikobereitschaft basieren.
  3. Als Vermögensverwalter möchte ich je nach Standort auf Englisch oder Spanisch auf die Anwendung zugreifen.

Wettbewerbsanalyse
Prompt-Anweisung: “Stellen Sie 5 bis 7 Konkurrenzprodukte zur Verfügung.”13

  1. „Wealthfront: Automatisierter Anlageservice mit einer übersichtlichen Benutzeroberfläche, aber ohne personalisierte Fondsempfehlungen.“
  2. „Persönliches Kapital: Bietet umfassende Tools für die Vermögensverwaltung, kann aber für neue Benutzer überwältigend sein.“
  3. „Verbesserung: Konzentriert sich auf automatisierte Investitionen mit begrenzten Anpassungen für Vermögensverwalter.“

Anforderungsanalyse
Prompt:„Geben Sie eine detaillierte Analyse der Anforderungen an.“14

Die Anwendung muss mit React erstellt werden, damit sie skalierbar und wartbar ist. Es sollte über eine mehrsprachige Benutzeroberfläche verfügen, um Benutzern in Amerika, Großbritannien und Spanien gerecht zu werden. Die Anwendung muss sicher sein, um sensible Finanzdaten zu schützen und den regionalen Vorschriften zu entsprechen. Sie sollte zudem in verschiedene Finanzdatenquellen integriert werden können, um Portfolioanalysen und Fondsempfehlungen in Echtzeit bereitzustellen.

Anforderungspool
Prompt-Anweisung: „Listen Sie die wichtigsten 5 bis 7 Anforderungen mit ihrer Priorität auf (P0, P1, P2).“ Behalten Sie Inhalte bei, die nichts mit der schrittweisen Entwicklung zu tun haben.“15

  •  („Sichere Benutzerauthentifizierung und Verschlüsselung zum Schutz von Kundeninformationen.“, „P0“),
  • („Mehrsprachige Unterstützung für Englisch und Spanisch, mit regionalen Variationen.“, „P0“),
  •  („Integration mit Finanzdatenquellen für das Portfolio.“, „P0“),
  •  („Benutzerfreundliches Dashboard zur Überprüfung und Verwaltung von Portfolios.“, „P1“),
  • („Empfehlungsmaschine zum Vorschlagen geeigneter Fonds auf der Grundlage von Kundenprofilen.“, „P2“)

Entwurf
 für ein UI-Design Prompt-Anweisung: „Geben Sie eine einfache Beschreibung der Elemente, der Funktionen, des Stils und des Layouts der Benutzeroberfläche an.“16

Die Benutzeroberfläche präsentiert sich in einem übersichtlichen und modernen Design mit einem Dashboard, das einen Überblick über die Kundenportfolios bietet. Sie umfasst interaktive Diagramme für die Portfolioanalyse, einen Empfehlungsbereich für die Fondsauswahl und eine einfache Umschaltfunktion zwischen Englisch und Spanisch.

Etwas UNKLAR
Promptanweisung: „Erwähnen Sie alle Aspekte des Projekts, die unklar sind, und versuchen Sie, diese zu klären.“17

Es gibt keine unklaren Punkte.

Das vorangegangene Beispiel ist eine Übergabe an den Architektenagenten für Design. Hier ist der SOP-basierte Prompt zusammen mit dem PRD:

„Hier finden Sie das Produktanforderungsdokument (PRD): Überprüfen Sie anhand dieses PRD, ob das API-Design den Anforderungen des PRD entspricht und ob es den bewährten Designpraktiken entspricht.“18

Der Architekt folgt seinem eigenen SOP-Workflow, um das System für die Anwendung zu entwerfen.

Eine SOP beschreibt die Verantwortlichkeiten der einzelnen Bearbeiter und legt Standards für Ausgaben fest. Diese SOPs werden dann so kodiert, dass sie das Verhalten des Agenten beeinflussen. Diese Vorgehensweise ermöglicht es Agenten, strukturierte Ausgaben zu generieren, z. B. hochwertige Anforderungsdokumente, Designartefakte, Flussdiagramme und Schnittstellenspezifikationen. Alle Übergaben zwischen Agenten müssen bestimmten festgelegten Standards entsprechen, die das Risiko einer Halluzination durch Leerlaufgespräche zwischen LLMs verringern. Die Verwendung strukturierter Ausgaben erhöht die Erfolgsrate der Zielcodegenerierung erheblich.19

Wie MetaGPT SOPs verwendet, um Agenten zu prompten

Alle Agenten innerhalb von MetaGPT agieren als Mitarbeiter, die einem strengen und optimierten Workflow folgen müssen. Es gibt zwei Hauptteile innerhalb der SOP, die das Verhalten der Agenten definieren: Rollenspezialisierung und Workflow über die Agenten hinweg.

Spezialisierung der Agentenrollen: MetaGPT definiert fünf Rollen innerhalb des Softwareunternehmens: Produktmanager, Architekt, Projektmanager, Ingenieur und QA-Ingenieur. Das Profil jedes Agenten wird mit spezifischen Informationen initialisiert, z. B. dem Agentennamen, dem Profil, dem Ziel und den Einschränkungen für jede Rolle sowie dem spezifischen Kontext und den Fähigkeiten für jede Rolle.20 Jeder Agent ist wie ein digitaler Organismus, der in einer Umgebung agiert.21 Das Konzept vordefinierter Rollen unterscheidet sich von Multiagenten-Frameworks wie CrewAI, die es Benutzern ermöglichen, die Funktion des Agenten innerhalb eines Teams für allgemeinere Anwendungsfall zu definieren.

Workflow zwischen Agenten: Durch die Definition der Rollen und operativen Fähigkeiten der Agenten wird ein grundlegender Workflow festgelegt, dem die Agenten im Rahmen des Softwareentwicklungsprozesses folgen müssen. Agenten arbeiten in einer sequenziellen Reihenfolge oder nach einem Fließbandprinzip, um komplexe Aufgaben für eine höhere Effizienz im Team aufzuteilen.

Wie interagieren Agenten in MetaGPT?

MetaGPT geht davon aus, dass eine sinnvolle Zusammenarbeit effektive, kohärente und präzise Problemlösungsprozesse erfordert. KI-Agenten sind komplexe Systeme; ihre Prozesse müssen es jedoch nicht sein, zumindest nicht laut MetaGPT und seinem Erbe von geradlinigen menschlichen Workflows.

Kommunikationsprotokoll

Agenten interagieren innerhalb einer strukturierten Kommunikationsschnittstelle, die als Kommunikationsprotokoll bezeichnet wird. MetaGPT unterscheidet sich von den meisten LLM-basierten Multiagenten-Frameworks dadurch, dass es keine uneingeschränkte natürliche Sprache als Kommunikationsschnittstelle verwendet, sondern stattdessen die Verwendung einer strukturierten Kommunikation zur Formulierung der Interaktion zwischen Agenten vorschlägt. In ChatDev, einem anderen Framework für die Zusammenarbeit mit mehreren Agenten, kommunizieren die Agenten beispielsweise über Dialoge, während die Agenten in MetaGPT über strukturierte Ausgaben wie Dokumente und Diagramme kommunizieren.

Um dieses Kommunikationsprotokoll zu erleichtern, legt MetaGPT ein Schema und Format für jeden Agenten fest und fordert an, dass jede einzelne Rolle die notwendigen Ausgaben basierend auf ihrem spezifischen Ziel und Kontext liefert.22 In einem Beispiel generiert der Architect-Agent zwei Outputs: das Systemschnittstellendesign und ein Sequenzflussdiagramm. Beide Ausgaben enthalten Entwurfs- und Interaktionssequenzen für Systemmodule, die als wichtigste Ergebnisse für die Ingenieuragenten dienen.23

Mechanismus zum Veröffentlichen und Abonnieren

Um die Kommunikationseffizienz zu verbessern, verwendet MetaGPT einen globalen Nachrichtenpool, um Informationen zu speichern, die es Agenten ermöglichen, Nachrichten direkt auszutauschen. Agenten veröffentlichen ihre strukturierten Nachrichten im Pool und können transparent auf Nachrichten von anderen Agenten zugreifen. Dieser Ansatz ermöglicht es den Mitarbeitern, direkt auf die erforderlichen Informationen aus dem gemeinsamen Pool zuzugreifen, sodass sie nicht andere Bearbeiter fragen und auf deren Antworten warten müssen.24

MetaGPT-Entwicklungsprozess

Der Entwicklungsprozess beginnt mit dem Eingabebefehl eines Benutzers und endet mit einer Software, die gemäß den Spezifikationen des Benutzers entwickelt wurde. Die Benutzereingabe könnte beispielsweise wie folgt lauten: „Schreiben Sie eine Python-GUI-Anwendung, damit Sie ein Bild damit zeichnen können.“ Der Prompt des Benutzers wird an das Softwareunternehmen weitergeleitet, ein Team aus verschiedenen Agenten: Produktmanager, Architekt, Projektmanager, Ingenieur, QA-Ingenieur

Nachdem der Produktmanager den Prompt erhalten hat, eine bestimmte Anwendung zu erstellen, erstellt er eine PRD, die Ziele, User Stories, Wettbewerbsanalyse, Anforderungsanalyse und Anforderungspool umfasst. Darüber hinaus erstellt der Produktmanager-Agent auch ein wettbewerbsfähiges Quadrantendiagramm auf der Grundlage der Spezifikationen der Anwendung. Diese Unterlagen und Diagramme werden an den Architektenagenten für die Systemplanung übergeben.

Der Agent des Architekten erstellt technische Spezifikationen auf der Grundlage der Anforderungen der PRD. Die Spezifikationen umfassen Systemarchitekturdiagramme und Schnittstellendefinitionen für den technischen Gesamtverlauf des Projekts. Die Architektur des Projekts, einschließlich Dateien, Klassen und Ablaufdiagramm, wurde auf der Grundlage der technischen Definitionen des Architekten entworfen. Die vom Architekten erstellte Dokumentation wird dann dem Projektmanager zur Aufgabenzuweisung und -ausführung ausgehändigt.

Der Projektmanager schlüsselt das Projekt in einer Aufgabenliste auf. Jede Codedatei wird auf der Grundlage der beabsichtigten Funktionalität analysiert und dann als separate Aufgabe für Ingenieure behandelt.

Der Agent generiert den Code, der mit grundlegenden Entwicklungskenntnissen benötigt wird, um die Entwicklungsaufgaben zu erfüllen. Nach Erhalt der Ausgabe vom Techniker generiert der QA-Ingenieur-Agent einen Unit-Test-Code und überprüft ihn, um etwaige Fehler zu identifizieren und zu beheben.

LLM-Integration in MetaGPT

Die Agenten von MetaGPT basieren auf den von OpenAI entwickelten GPT-Modellen (Generative Pre-Trained Transformer) GPT-3.5 und GPT-4. MetaGPT und seine Open-Source-Community haben jedoch dazu beigetragen, dass mehrere andere Modelle hinzugefügt wurden, die über die LLM-API-Konfiguration initialisiert werden können. MetaGPT bietet auf seiner GitHub-Dokumentenseite ein Tutorial an, das die Erkundung der Integration mit Open-Source-LLMs erleichtert. Der erste Schritt zur Integration eines LLM besteht darin, ein Inferenz-Repository (Repo) wie LLaMA-Factory, FastChat, Ollama und so weiter einzurichten. Dieses Repository ermöglicht die Bereitstellung des entsprechenden LLM-Modells, das über seine Zugangsdaten konfiguriert wird. Alle unterstützten Inferenz-Repositorys mit Ausnahme von Ollama unterstützen die Veröffentlichung von OpenAI-kompatiblen Schnittstellen. MetaGPT möchte die Ollama-Schnittstelle in Zukunft unterstützen.

Können sich KI-Agenten bei der Metaprogrammierung auszeichnen?

Metaprogramming-Frameworks bieten die Funktionalität zum Erstellen von Programmen, die andere Programme sowie das Programm selbst schreiben, bearbeiten und analysieren können. MetaGPT modelliert diesen Zweck durch die Einbindung menschlicher Workflows zur Unterstützung generativer KI unter Verwendung agentenbasierter Techniken zur Verbesserung der Metaprogrammierung.

LLM-basierte Agenten enthalten mehrere Kernfunktionen mit erweiterten automatischen Programmieraufgaben.25 Zu diesen Fortschritten gehören ReAct und Reflexion, Denkparadigmen, die von Agenten verwendet werden, die eine Kette von Prompt einsetzen, um Denkverläufe und Aktionspläne mit LLMs zu generieren.26

Die Agentenentwurfsschleife ReAct demonstriert einen effektiven Prozess für die automatische Programmierung, da sie eine iterative Entwurfsschleife enthält, die es den Agenten ermöglicht, zu denken, zu handeln und zu beobachten.27 Reflexion stärkt Sprachagenten durch linguistisches Feedback, indem sie einer ähnlichen iterativen Designschleife folgt, um eine bessere Entscheidungsfindung zu induzieren.28 Beide Paradigmen-Designs ermöglichen es Mitarbeitern, kontinuierlich zu lernen und ihren Workflow zu verbessern.

Herkömmliche LLMs, wie das GPT-3-Modell von OpenAI, die Llama-Modelle von Meta und die Granite™-Modelle von IBM, sind in ihrem Wissen und ihrer Argumentationsfähigkeit eingeschränkt. Sie generieren Antworten auf der Grundlage der Trainingsdaten, die häufig veraltete Informationen enthalten können. Im Gegensatz dazu nutzt die agentische Technologie den Aufruf von Backend-Tools, um auf aktuelle Informationen zuzugreifen, Workflows zu rationalisieren und spezifische Aufgaben zur Erreichung komplexer Ziele autonom zu erstellen. Während dieses Prozesses lernt der autonome Agent, sich im Laufe der Zeit an die Erwartungen der Benutzer anzupassen, um eine maßgeschneiderte Erfahrung und fundiertere Antworten bereitzustellen. Dieser Werkzeugaufruf kann ohne menschliches Zutun erfolgen, was die potenziellen Anwendungsmöglichkeiten dieser KI-Systeme in der Praxis erweitert.

So verwendet MetaGPT Metaprogrammier-Agenten

Die Engineer-Agents von MetaGPT beteiligen sich mit ausführbarem Feedback an der iterativen Programmierung. Die Prozesse des Debuggens und Optimierens sind im Programmieralltag wichtig. Andere Implementierungen fehlen Selbstkorrekturmechanismen des Agenten, was zu unerwünschten Ergebnissen wie Halluzinationen oder nicht funktionierendem Code führt. Um diese Risiken zu minimieren, führt MetaGPT einen ausführbaren Feedbackmechanismus ein, um den Code bei jeder Iteration zu verbessern.

Der Ingenieuragent schreibt Code basierend auf den ursprünglichen Produktanforderungen und dem Design. Dadurch kann der Agent den Code mithilfe seines eigenen historischen Ausführungs- und Debugging-Speichers kontinuierlich verbessern. Der Ingenieur erhält weitere Informationen zur Verbesserung des Codes, indem er die entsprechenden Komponententestfälle schreibt und ausführt. Nach Erhalt der Ergebnisse fährt der Ingenieur entweder mit zusätzlichen Entwicklungsaufgaben fort oder debuggt den Code, bevor er mit der Programmierung fortfährt. Dieser iterative Prozess wird fortgeführt, bis der Test bestanden ist oder maximal 3 Versuche erforderlich sind.29

Andere Multi-Agent-Frameworks

CrewAI – CrewAI ist ein auf Python basierendes Open-Source-Framework für Multiagenten, das autonome Agenten im Rollenspiel nutzt, die als Team zusammenarbeiten, um Aufgaben zu erledigen. Benutzer können Agents basierend auf ihren Anforderungen oder ihrer Verwendung erstellen und anpassen. Zu den Anwendungsfällen gehören allgemeine Zwecke wie die Planung und Erstellung von Inhalten, Datenanalysen und Automatisierungsaufgaben. CrewAI ist mit IBM watsonx.ai integriert und bietet mehrere LLM-Integrationen sowie Kompatibilität mit Ollama.30

ChatDev – ChatDev ist ein Open-Source-Multiagent-Framework, das ein virtuelles Softwareunternehmen simuliert, das durch verschiedene intelligente Agenten mit unterschiedlichen organisatorischen Rollen betrieben wird. Agenten arbeiten im Dialog zusammen, um ein Softwareprodukt einschließlich ausführbarem Code und Dokumentation zu erstellen. ChatDev unterstützt die Modelle GPT-3.5-turbo und GPT-4 von OpenAI, um seine intelligenten Agenten zu betreiben.31

AutoGPT – AutoGPT ist ein Open-Source-Multiagenten-Framework, das Verarbeitung natürlicher Sprache (NLP) einsetzt, um Benutzerziele und komplexe Aufgabenzerlegungen zu verstehen. Agenten arbeiten in einem automatisierten Workflow zusammen, um eine übergeordnete Benutzeranforderung zu bearbeiten, indem sie jede Aufgabe in eine Abfolge kleinerer Teilaufgaben aufteilen. Anwendungsfälle umfassen allgemeine Lösungen wie Marktforschung und -analyse, Produktentwicklung, virtuelle Assistenz und vieles mehr. Dieses Framework wurde mit KI-Agenten auf Basis von GPT-4 von OpenAI erstellt.32

