Neubewertung der Datenverwaltung im Zeitalter der generativen KI

Vier Kollegen sitzen und stehen um einen Schreibtisch in einem Büro mit hohen Fenstern

Autor

Geoff Baird

Associate Partner

Data & Technology Transformation

Generative KI hat die Technologiebranche verändert, indem sie neue Datenrisiken einführt, wie z. B. den Verlust sensibler Daten durch große Sprachmodelle (LLMs), und zu einer Zunahme der Anforderungen von Aufsichtsbehörden und Regierungen geführt hat. Um sich erfolgreich auf dem Gebiet der generativen KI zurechtzufinden, sollten sich Unternehmen mit den Grundprinzipien des Datenmanagements befassen. Und sicherstellen, dass sie einen soliden Ansatz verwenden, um große Sprachmodelle mit unternehmensweiten/nicht öffentlichen Daten zu erweitern.

Ein guter Ansatz ist die Überarbeitung der Art und Weise, wie Unternehmen Daten verwalten, insbesondere im Hinblick auf deren Verwendung in generativen KI-Lösungen. Einige Beispiele:

  • Validierung und Schaffung von Datenschutzfunktionen: Datenplattformen müssen auf ein höheres Maß an Schutz und Überwachung vorbereitet sein. Dies erfordert traditionelle Funktionen wie Verschlüsselung, Anonymisierung und Tokenisierung, aber auch die Schaffung von Funktionen zur automatischen Klassifizierung von Daten (Sensibilität, Taxonomieausrichtung) durch den Einsatz von maschinellem Lernen. Tools zur Datenerkennung und Katalogisierung können hilfreich sein, sollten aber erweitert werden, um die Klassifizierung auf das Verständnis der eigenen Daten durch das Unternehmen abzustimmen. So können Unternehmen neue Richtlinien effektiv anwenden und die Lücke zwischen dem konzeptionellen Verständnis von Daten und der Realität der Implementierung von Datenlösungen schließen.
  • Verbesserung der Kontrollen, Überprüfbarkeit und Übersicht: Der Datenzugriff, die Nutzung und die Interaktion mit Unternehmensdaten durch Dritte erfordern neue Konzepte für bestehende Lösungen. Erfassen Sie beispielsweise einen Teil der Anforderungen, die erforderlich sind, um die autorisierte Nutzung der Daten sicherzustellen. Unternehmen benötigen jedoch vollständige Prüfpfade und Überwachungssysteme. Damit lässt sich nachverfolgen, wie Daten verwendet werden, wann Daten geändert werden und ob Daten über Interaktionen mit Dritten sowohl für Lösungen mit generativer KI als auch für Lösungen ohne generative KI weitergegeben werden. Es ist nicht mehr ausreichend, Daten zu kontrollieren, indem man den Zugriff darauf einschränkt, und wir sollten auch die Anwendungsfälle verfolgen, für die auf Daten zugegriffen und sie im Rahmen analytischer und operativer Lösungen eingesetzt werden. Automatisierte Warnmeldungen und Berichte über unzulässigen Zugriff und Nutzung (gemessen anhand von Abfrageanalysen, Datenexfiltration und Netzwerkbewegungen) sollten von Infrastruktur- und Data Governance-Teams entwickelt und regelmäßig überprüft werden, um die Einhaltung der Vorschriften proaktiv sicherzustellen.
  • Aufbereitung von Daten für generative KI: Es gibt eine Abkehr von traditionellen Datenverwaltungsmustern und -fähigkeiten, die eine neue Disziplin erfordern, um die Qualität, Genauigkeit und Relevanz von Daten für das Training und die Erweiterung von Sprachmodellen für die KI-Nutzung sicherzustellen. Da Vektordatenbanken im Bereich der generativen KI immer häufiger eingesetzt werden, muss die Data Governance verbessert werden, um Datenmanagementplattformen, die nicht traditionell sind, gerecht zu werden. Damit soll sichergestellt werden, dass auf diese neuen Architekturkomponenten die gleichen Governance-Praktiken angewendet werden. Die Datenabstammung wird umso wichtiger, da die Einhaltung von „Erklärbarkeiten“ in den Modellen von den Aufsichtsbehörden gefordert wird.

Unternehmensdaten sind oft komplex, vielfältig und über verschiedene Speicher verstreut, was die Integration in Lösungen mit generativer KI erschwert. Diese Komplexität wird durch die Notwendigkeit noch erhöht, die Einhaltung gesetzlicher Vorschriften zu gewährleisten, Risiken zu mindern und Qualifikationslücken bei der Integration und den Retrieval-Augmented Generation (RAG)-Mustern zu schließen. Darüber hinaus spielen Daten bei der Entwicklung und Bereitstellung von Lösungen mit generativer KI oft eine nachträgliche Rolle, was zu Ineffizienzen und Inkonsistenzen führt.

Freischalten des vollen Potenzials von Unternehmensdaten für generative KI

Bei IBM haben wir einen Ansatz zur Lösung dieser Datenherausforderungen entwickelt. Die IBM gen AI Data Ingestion Factory, ein Managed Service, der darauf abzielt, das Datenproblem von KI zu lösen und das volle Potenzial von Unternehmensdaten für generative KI freizuschalten. Unsere vordefinierte Architektur und unsere Code-Blueprints, die als Managed Service bereitgestellt werden können, vereinfachen und beschleunigen den Prozess der Integration von Unternehmensdaten in generative KI-Lösungen. Wir gehen dieses Problem unter Berücksichtigung der Datenverwaltung an und bereiten die Daten von Anfang an für Governance, Risiko und Compliance auf. 

Zu unseren Kernfunktionen gehören:

  • Skalierbare Datenaufnahme: Wiederverwendbare Dienste zum Skalieren der Datenaufnahme und von RAG über alle generative KI-Anwendungsfälle und -Lösungen hinweg, mit optimierten Chunking- und Einbettungsmustern.
  • Regulatorische Anforderungen und Compliance: Die Daten werden für den Einsatz mit generativer KI so aufbereitet, dass sie den aktuellen und zukünftigen Vorschriften entsprechen. Dies hilft Unternehmen, die Compliance-Anforderungen der Marktregulierung im Bereich der generativen KI zu erfüllen.
  • Datenschutzmanagement: Langer Text kann bei seiner Entdeckung anonymisiert werden, was das Risiko reduziert und den Datenschutz gewährleistet.

Der Service ist agnostisch, ermöglicht die Bereitstellung überall und bietet eine Anpassung an Client-Umgebungen und -Anwendungsfälle. Durch den Einsatz der IBM gen AI Data Ingestion Factory können Unternehmen mehrere wichtige Ergebnisse erzielen, darunter:

  • Reduzierung des Zeitaufwands für die Datenintegration: Ein verwalteter Service, der den Zeit- und Arbeitsaufwand zur Lösung des „Datenproblems“ der KI reduziert. Zum Beispiel die Verwendung eines wiederholbaren Prozesses für das „Chunking“ und „Einbetten“ von Daten, damit nicht für jeden Anwendungsfall der generativen KI ein Entwicklungsaufwand erforderlich ist.
  • Konforme Datennutzung: Hilfe bei der Einhaltung von Datennutzungsvorschriften, die sich auf die vom Unternehmen bereitgestellten generativen KI-Anwendungen konzentrieren. So muss beispielsweise sichergestellt werden, dass Daten, die in RAG-Mustern vorliegen, für die Nutzung durch Unternehmen in generativen KI-Lösungen zugelassen werden.
  • Risikominderung: Verringerung des Risikos im Zusammenhang mit Daten, die in Lösungen für generative KI verwendet werden. So verringert beispielsweise die Bereitstellung transparenter Ergebnisse darüber, welche Daten für die Ausgabe eines Modells verwendet wurden, das Modellrisiko und den Zeitaufwand, den Aufsichtsbehörden nachzuweisen, wie die Informationen bezogen wurden.
  • Einheitliche und reproduzierbare Ergebnisse: Bereitstellung konsistenter und reproduzierbarer Ergebnisse von LLMs und Lösungen für generative KI. Zum Beispiel das Erfassen der Herkunft und das Vergleichen der Ausgaben (d. h. generierte Daten) im Zeitverlauf, um anhand von Standardmetriken wie ROUGE und BLEUüber die Konsistenz zu berichten.

Die Bewältigung der Komplexität von Datenrisiken erfordert funktionsübergreifendes Fachwissen. Unser Team aus ehemaligen Regulierungsbehörden, Branchenführern und Technologieexperten bei IBM Consulting ist einzigartig positioniert, um diese Herausforderung mit unseren Beratungsleistungen und Lösungen zu bewältigen. 

 
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken