Neue ethische Risiken durch KI-Agenten? Forscher gehen der Sache auf den Grund.

23. Dezember 2024

Autoren

Alice Gomstyn

IBM Content Contributor

Alexandra Jonker

Editorial Content Lead

Wenn KI-Systeme aus dem Ruder laufen, sind die Ergebnisse oft unschön. Durchgesickerte vertrauliche Informationen, beleidigende Nachrichten und in einem Fall ein benutzerfreundliches Rezept für tödliches Chlorgas – all das wurde Chatbots angelastet, die auf Abwege geraten sind..1

Solche Fälle haben dazu geführt, dass der KI-Anpassung, d. h. der Kodierung menschlicher Werte und ethischer Grundsätze in KI-Modelle, mehr Bedeutung beigemessen wird. KI-Forscher beschränken sich jedoch nicht darauf, die ethischen Auswirkungen der heutigen Technologien für maschinelles Lernen zu erforschen. Sie arbeiten auch daran, die ethischen Fragen von morgen anzugehen - insbesondere die, die sich durch agentische künstliche Intelligenz ergeben.

Die auch als KI-Agenten bezeichnete agentische KI ist eine autonome KI-Technologie, die im Vergleich zu herkömmlichen KI-Modellen eine Reihe von ethischen Dilemmata aufwirft, sagt Kush Varshney, ein IBM Fellow bei IBM Research.

„Da KI-Agenten ohne Aufsicht handeln können, gibt es eine Menge zusätzlicher Vertrauensprobleme“, sagt Varshney. „Es wird eine Entwicklung in Bezug auf die Fähigkeiten, aber auch auf unbeabsichtigte Folgen geben. Aus der Perspektive der Sicherheit sollten Sie nicht warten, um daran zu arbeiten. Sie sollten die Sicherheitsvorkehrungen in dem Maße ausbauen, wie die Technologie entwickelt wird.“

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Was sind genau AI-Agenten?

Bevor wir uns mit den Sicherheitsvorkehrungen für KI-Agenten befassen, sollten Sie genau verstehen, was KI-Agenten sind: intelligente Systeme oder Programme, die autonom Aufgaben im Namen eines Menschen oder eines anderen Systems ausführen können. Diese autonomen Systeme verfügen zwar über LLM-Funktionen (Large Language Model) wie die Verarbeitung natürlicher Sprache, können aber auch Entscheidungen treffen, Probleme lösen, Aktionen ausführen und mit externen Umgebungen interagieren.

Dank solcher Funktionen können KI-Agenten nicht nur Textantworten auf Benutzer-Prompts verfassen, sondern auch Aufgaben in der realen Welt erledigen.

Externe Interaktionen erfolgen z. B. über den Aufruf von Werkzeugen, auch bekannt als Funktionsaufrufe. Dies ist eine Schnittstelle, über die Agenten an Aufgaben arbeiten können, für die zeitnahe Informationen erforderlich sind – Informationen, die den LLMs sonst nicht zur Verfügung stehen würden. So könnten KI-Agenten, die in einem Ökosystem für die Lieferkette bereitgestellt werden, autonom an der Optimierung des Lagerbestands arbeiten, indem sie die Produktionspläne ändern und bei Bedarf eine Bestellung bei Lieferanten aufgeben.

AI Academy

Vertrauen, Transparenz und Governance in der KI

KI-Vertrauen ist zweifelsohne das wichtigste Thema in der KI. Es ist verständlicherweise auch ein überwältigendes Thema. Wir werden uns mit Problemen wie Halluzinationen, Voreingenommenheit und Risiken auseinandersetzen und Schritte für eine ethische, verantwortungsvolle und faire Einführung von KI aufzeigen.

Wie riskant ist eine größere KI-Autonomie?

Wenn es um fortgeschrittene künstliche Intelligenz wie die agentische KI geht, stellt sich die Frage, wie viel Autonomie eigentlich zu viel ist. Um diese Frage zu beantworten, können wir das Szenario des Büroklammer-Maximierers heranziehen. Das berühmte Gedankenexperiment des Philosophen Nick Bostrom dreht sich um das immer noch hypothetische Konzept der KI-Superintelligenz oder ASI, ein KI-System mit einem intellektuellen Umfang, der den der menschlichen Intelligenz übersteigt. Bolstrom überlegt, was passieren könnte, wenn ein solches System der Herstellung von Büroklammern Vorrang vor allen anderen Zielen einräumt.

In dem beschriebenen Szenario verwendet das System schließlich alle Ressourcen unseres Planeten für die Herstellung von Büroklammern – ein unethisches Ergebnis, wenn das Leben von mehr abhängt als nur von einer endlosen Fülle an winzigen metallischen Büroartikeln. Um auf unsere ursprüngliche Frage zurückzukommen, können wir natürlich zu dem Schluss kommen, dass das betreffende KI-System in diesem hypothetischen Fall zu viel Autonomie hatte.

Die gute Nachricht ist, dass die heutige agentische KI nicht dasselbe ist wie ASI. Dementsprechend bleibt eine Büroklammer-Dystopie, die von einer katastrophal fehlgeleiteten Maschinen-Ethik getrieben wird, unwahrscheinlich. „Wir sind näher dran, aber immer noch weit entfernt“, sagt Varshney.

Andere Risiken, die sich aus der KI-Automatisierung ergeben, sind jedoch viel bedrohlicher. Die Möglichkeiten reichen von künstlichen Agenten, die unangemessene E-Mails versenden, bis hin zum Stoppen und Starten von Maschinen auf eine Weise, die der Benutzer nicht beabsichtigt hatte, erklärt Varshney. Die Bedenken über autonomes KI-Verhalten sind so groß, dass das US-Ministerium für Innere Sicherheit (Department of Homeland Security, DHS) in einem Bericht vom April 2024 über Richtlinien zur KI-Sicherheit das Thema „Autonomie“ in seine Liste der Risiken für kritische Infrastruktursysteme wie Kommunikation, Finanzdienstleistungen und Gesundheitswesen aufgenommen hat.2

Entwicklung von Lösungen zur Förderung des ethischen Verhaltens von Agenten

Bestehende Lösungen für KI-Governance können zur Unterstützung der Ethik von KI-Agenten beitragen. Software-Tools ermöglichen es Unternehmen bereits, Verzerrungen zu überwachen, zu bewerten und zu beseitigen, die aus Trainingsdatensätzen und Algorithmen stammen und Entscheidungsprozesse verfälschen könnten. Mit diesen Tools können Entwickler und Unternehmen auch sicherstellen, dass die von ihnen verwendeten KI-Tools den aktuellen Standards für vertrauenswürdige KI, den Zielen für Erklärbarkeit und den Grundsätzen für verantwortungsvolle KI entsprechen, die von verschiedenen Unternehmen und Regierungen weitgehend übernommen wurden.

Aber da Unternehmen zunehmend agentische KI in ihre Workflows integrieren, arbeiten Forscher auch an neuen ethischen KI-Lösungen und Strategien, die das Fehlverhalten autonomer Agenten begrenzen und die Nachhaltigkeit der KI-Technologie verbessern können. Im Folgenden finden Sie einige, die Beachtung verdienen:

Ein neuartiger Ansatz für die KI-Ausrichtung

Vortrainierte KI-Modelle werden heute einer Feinabstimmung unterzogen, um auf bereichsspezifischen Daten trainiert zu werden. Während der Feinabstimmungsphase der KI-Entwicklung können die Modelle an moralischen Werten und ethischen Überlegungen ausgerichtet werden. Dabei stellt sich jedoch oft die Frage, welche normativen Werte in die Ausrichtung einbezogen werden sollten. Schließlich unterscheiden sich die Werte und ethischen Frameworks je nach Unternehmen, Land, Stakeholder-Gruppe und so weiter.

Varshney und ein Team von IBM Forscherkollegen haben einen technologiegestützten Ansatz vorgeschlagen, der kontextspezifischer ist: Das so genannte Alignment Studio soll große Sprachmodelle an Regeln und Werten ausrichten, die in natürlichsprachlichen Grundsatzdokumenten festgelegt sind, z. B. in staatlichen Vorschriften oder den ethischen Richtlinien eines Unternehmens.

Der Ansatz, der in einem im September 2024 in der Zeitschrift IEEE Internet Computing veröffentlichten Artikel beschrieben wird, umfasst einen kontinuierlichen Entwicklungszyklus. So lernen die Modelle nicht nur richtlinienbezogenes Vokabular aus Grundsatzdokumenten, sondern übernehmen tatsächlich die gewünschten Verhaltensweisen für eine bessere Wertorientierung.3

Erkennung von Halluzinationen durch Funktionsaufrufe

Zu den Ursachen für das Fehlverhalten von KI-Agenten gehört das Fehlen spezifischer Anweisungen seitens des Benutzers oder eine Fehlinterpretation der Anweisungen des Benutzers durch den Agenten. Solche „Missverständnisse“ können dazu führen, dass Agenten die falschen Werkzeuge wählen oder sie auf unangemessene oder schädliche Weise einsetzen, was als funktionsbezogene Halluzination bekannt ist.

Glücklicherweise ist die Verbesserung des Funktionsaufrufs zu einem wettbewerbsorientierten Unterfangen geworden. So wurden verschiedene Benchmarks erstellt, die messen, wie gut LLMs entsprechende APIs aufrufen. Eine der jüngsten Verbesserungen ist eine neue Funktion in der neuesten Version von IBM Granite Guardian, Granite Guardian 3.1, Teil der IBM Familie von Granite Sprachmodellen, die speziell für Unternehmen entwickelt wurden. Das Modell kann funktionsbezogene Halluzinationen von Agenten erkennen, bevor unbeabsichtigte Folgen auftreten. „Der Detektor prüft auf alle Arten von Fehlern, von der Beschreibung der menschlichen Sprache bis hin zur aufgerufenen Funktion“, erklärt Varshney.

Erkennung von KI-generiertem Text und Desinformationen

Böswillige Akteure haben bereits generative KI zur Verbreitung von Deepfakes in den sozialen Medien eingesetzt. Dabei handelt es sich um realistische KI-generierte Audio-, Video- oder Bilddateien, die das Abbild eines Menschen nachbilden können. Unterdessen haben Betrüger KI-generierte Texte für raffinierte Phishing-E-Mails eingesetzt. Die Leistungsfähigkeit der agentischen KI könnte diese gefährlichen Trends noch verschärfen.

„Es gibt immer mehr Beweise dafür, dass KI-generierte Ergebnisse genauso überzeugend sind wie menschliche Argumente“, warnten Forscher von Google DeepMind in einem Bericht vom April 2024. In der Zukunft könnten böswillige Akteure autonome KI nutzen, um „Fehlinformationen auf Nutzer zuzuschneiden, indem sie deren Emotionen und Schwachstellen ausnutzen“.4.

Bislang war die Leistung von Tools zur Erkennung von KI-gestützter Täuschung eher durchwachsen. Aber Forscher stellen sich weiterhin der Herausforderung, die KI-Erkennung zu verbessern. Einige der vielversprechendsten Ergebnisse stammen von der neuesten Generation von KI-Text-Detektoren.5

Ein neues Framework namens RADAR, das von Forschern der Chinesischen Universität Hongkong und IBM Research entwickelt wurde, nutzt beispielsweise kontradiktorisches Lernen zwischen zwei separaten, justierbaren Sprachmodellen für das Training eines KI-Textdetektors, was zu einer besseren Leistung im Vergleich zu älteren Lösungen zur KI-Texterkennung führt.6

Da die Entwicklung von Technologien zur KI-Erkennung weiter voranschreitet, haben Technologieunternehmen wie IBM, Microsoft und OpenAI auch die Politik aufgefordert, Gesetze zu erlassen, um die Verbreitung von Deepfakes zu bekämpfen und böswillige Akteure zur Verantwortung zu ziehen.7

Wahrung der Würde menschlicher Arbeitskräfte

Viele der ethischen Fragen im Zusammenhang mit agentischer KI beziehen sich auf Fehlverhalten. Aber auch wenn autonome KI-Technologie die erwarteten Leistungen erbringt, gibt es weitere ethische Bedenken. So wurde beispielsweise viel über KI-Anwendungen wie ChatGPT von OpenAI diskutiert, die das Potenzial haben, menschliche Arbeit zu ersetzen und Existenzen zu vernichten.

Aber selbst wenn KI zur Ergänzung (und nicht zum Ersatz) menschlicher Arbeit eingesetzt wird, kann dies psychologische Folgen für die Mitarbeiter haben. Wenn menschliche Arbeitskräfte den Eindruck haben, dass KI-Agenten ihre Arbeit besser erledigen als sie selbst, könnte ihr Selbstwertgefühl sinken, erklärt Varshney. „Wenn Sie sich in einer Position befinden, in der Ihr gesamtes Fachwissen nicht mehr von Nutzen zu sein scheint, weil es dem KI-Agenten untergeordnet ist, könnten Sie Ihre Würde verlieren“, sagt er. In einigen Diskussionen über KI-Ethik wird ein solcher Verlust der Würde als Verletzung der Menschenrechte angesehen.8

In einem Forschungspapier aus dem August 2024 schlagen Varshney und mehrere Hochschulforscher einen organisatorischen Ansatz vor, um die Bedenken hinsichtlich der Menschenwürde anzugehen: die kontradiktorische Zusammenarbeit. In ihrem Modell wären Menschen immer noch für die endgültigen Empfehlungen zuständig, während KI-Systeme zur genaueren Prüfung der menschlichen Arbeit eingesetzt werden.

„Letztendlich trifft der Mensch die Entscheidung. Der Algorithmus ist nicht darauf ausgelegt, in dieser Rolle zu konkurrieren, sondern die Empfehlungen des menschlichen Mitarbeiters zu hinterfragen und damit zu optimieren“, schreiben die Forscher.9 Eine solche kontradiktorische Zusammenarbeit, so Varshney, „ist eine Art, Dinge zu organisieren, die die menschliche Würde bewahren kann“.

Fußnoten
Weiterführende Lösungen
IBM watsonx.governance

Verwalten Sie generative KI-Modelle ortsunabhängig und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.

Entdecken sie watsonx.governance
Beratungsleistungen zur KI-Governance

Bereiten Sie sich auf das EU-Gesetz zur KI vor und etablieren Sie mithilfe von IBM Consulting einen verantwortungsvollen KI-Governance-Ansatz.

KI-Governance-Dienste erkunden
IBM OpenPages®

Vereinfachen Sie die Verwaltung von Risiken und die Einhaltung gesetzlicher Vorschriften mit einer einheitlichen GRC-Plattform.

OpenPages entdecken
Machen Sie den nächsten Schritt

Steuern, verwalten und überwachen Sie Ihre KI mit einem einzigen Portfolio, um verantwortungsvolle, transparente und erklärbare KI voranzubringen.

watsonx.governance erkunden Buchen Sie eine Live-Demo