Die Bedeutung von Datenaufnahme und -integration für Unternehmens-KI

Junge Frau und männlicher Kollege schreiben Ideen auf Haftnotizen

Das Aufkommen der generativen KI veranlasste mehrere namhafte Unternehmen, deren Nutzung aufgrund des falschen Umgangs mit sensiblen internen Daten einzuschränken. Nach Angaben von CNN haben einige Unternehmen interne Verbote für generative KI-Tools verhängt, um die Technologie besser zu verstehen, und viele haben auch die Verwendung von internem ChatGPT blockiert.

Unternehmen nehmen bei der Erforschung großer Sprachmodelle (LLMs) häufig noch immer das Risiko in Kauf, interne Daten zu verwenden, da diese kontextbezogenen Daten den Wandel von LLMs von allgemeinem zu domänenspezifischem Wissen erst ermöglichen. Im Entwicklungszyklus der generativen KI oder traditionellen KI dient die Datenaufnahme als Einstiegspunkt. Hier können Rohdaten, die auf die Anforderungen eines Unternehmens zugeschnitten sind, gesammelt, vorverarbeitet, maskiert und in ein für LLMs oder andere Modelle geeignetes Format umgewandelt werden. Derzeit gibt es kein standardisiertes Verfahren zur Bewältigung der Herausforderungen bei der Dateneingabe, aber die Genauigkeit des Modells hängt davon ab.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben sich angemeldet.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

4 Risiken von schlecht erfassten Daten

  1. Erzeugung von Fehlinformationen: Wenn ein LLM auf kontaminierten Daten (Daten, die Fehler oder Ungenauigkeiten enthalten) trainiert wird, kann es falsche Antworten generieren, was zu fehlerhaften Entscheidungen und potenziellen Kaskadenproblemen führt.
  2. Erhöhte Varianz: Varianz misst die Konsistenz. Unzureichende Daten können zu unterschiedlichen Antworten im Laufe der Zeit oder zu irreführenden Ausreißern führen, insbesondere bei kleineren Datensätzen. Eine hohe Varianz in einem Modell kann darauf hindeuten, dass das Modell mit Trainingsdaten funktioniert, aber für reale Anwendungsfälle in der Industrie ungeeignet ist.
  3. Begrenzter Datenumfang und nicht repräsentative Antworten: Wenn Datenquellen restriktiv oder homogen sind oder irrtümlich Duplikate enthalten, können statistische Fehler wie Stichprobenverzerrungen alle Ergebnisse verfälschen. Dies kann dazu führen, dass das Modell ganze Bereiche, Abteilungen, demografische Gruppen, Branchen oder Quellen von der Konversation ausschließt.
  4. Herausforderungen bei der Korrektur voreingenommener Daten: Wenn die Daten von Anfang an voreingenommen sind,„besteht die einzige Möglichkeit, einen Teil dieser Daten rückwirkend zu entfernen, darin, den Algorithmus von Grund auf neu zu trainieren.“ Für LLM-Modelle ist es schwierig, Antworten zu verlernen, die aus nicht repräsentativen oder kontaminierten Daten stammen, wenn diese vektorisiert wurden. Diese Modelle verstärken ihr Verständnis in der Regel auf der Grundlage zuvor aufgenommener Antworten.

Die Datenaufnahme muss von Anfang an ordnungsgemäß erfolgen, da eine falsche Handhabung zu einer Vielzahl neuer Probleme führen kann. Die Arbeit an Trainingsdaten in einem KI-Modell ist mit dem Steuern eines Flugzeugs vergleichbar. Wenn der Startwinkel um ein Grad abweicht, könnten Sie auf einem völlig neuen Kontinent landen als erwartet.

Die gesamte generative KI-Pipeline hängt von den Datenpipelines ab, die sie ermöglichen, weshalb es unerlässlich ist, die richtigen Vorkehrungen zu treffen.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

4 Komponenten für eine zuverlässige Datenaufnahme

  1. Datenqualität und Governance: Datenqualität bedeutet, die Sicherheit von Datenquellen zu gewährleisten, ganzheitliche Daten zu pflegen und klare Metadaten bereitzustellen. Dies kann auch die Arbeit mit neuen Daten durch Methoden wie Web Scraping oder Uploading beinhalten. Data Governance ist ein fortlaufender Prozess im Datenlebenszyklus, der die Einhaltung von Gesetzen und Best Practices des Unternehmens sicherstellen soll.
  2. Integration: Diese Tools ermöglichen Unternehmen, verteilte Datenquellen an einem sicheren Ort zusammenzuführen. Eine beliebte Methode ist die ELT-Methode: Extrahieren, Laden, Transformieren. In einem ELT-System werden Datensätze aus isolierten Lagern ausgewählt, transformiert und dann in Quell- oder Zieldatenpools geladen. ELT-Tools wie IBM® DataStage ermöglichen schnelle und sichere Transformationen durch parallele Verarbeitungsengines. Im Jahr 2023 empfängt ein durchschnittliches Unternehmen Hunderte von verteilten Datenströmen, sodass effiziente und genaue Datenkonvertierungen für die Entwicklung traditioneller und neuer KI-Modelle entscheidend sind.
  3. Datenbereinigung und -vorverarbeitung: Dazu gehört die Formatierung von Daten, um bestimmte LLM-Schulungsanforderungen, Orchestrierungstools oder Datentypen zu erfüllen. Textdaten können in Chunks oder Tokens umgewandelt werden, während Bilddaten als Einbettungen gespeichert werden können. Umfassende Transformationen können mit Hilfe von Datenintegrationstools durchgeführt werden. Außerdem kann es erforderlich sein, Rohdaten direkt zu bearbeiten, indem Duplikate gelöscht oder Datentypen geändert werden.
  4. Datenspeicher: Nachdem die Daten bereinigt und verarbeitet wurden, stellt sich die Herausforderung des Datenspeicherns. Die meisten Daten werden entweder in der Cloud oder lokal gehostet, sodass Unternehmen Entscheidungen darüber treffen müssen, wo sie ihre Daten speichern möchten. Bei der Verwendung externer LLMs für den Umgang mit sensiblen Informationen wie personenbezogenen Daten, internen Dokumenten oder Kundendaten ist Vorsicht geboten. LLMs spielen jedoch eine kritische Rolle bei der Feinabstimmung oder der Implementierung eines auf Retrieval-Augmented Generation (RAG) basierenden Ansatzes. Um Risiken zu minimieren, ist es wichtig, möglichst viele Datenintegrationsprozesse auf internen Servern auszuführen. Eine mögliche Lösung ist die Verwendung von Remote-Laufzeitoptionen wie.

Starten Sie Ihre Datenaufnahme mit IBM

IBM DataStage rationalisiert die Datenintegration durch die Kombination verschiedener Tools. So können Sie mühelos Daten abrufen, organisieren, umwandeln und speichern, die für KI-Trainingsmodelle in einer Hybrid-Cloud-Umgebung benötigt werden. Datenexperten aller Qualifikationsstufen können das Tool verwenden, indem sie eine grafische Benutzeroberfläche ohne Code verwenden oder auf APIs mit geführtem benutzerdefiniertem Code zugreifen.

Die neue Remote-Runtime-Option von DataStage as a Service Anywhere bietet Flexibilität bei der Ausführung Ihrer Datenkonvertierungen. Sie ermöglicht Ihnen, die parallele Engine von überall aus zu nutzen und gibt Ihnen eine noch nie dagewesene Kontrolle über ihren Standort. DataStage als Service Anywhere erscheint als ein leichter Container, der es Ihnen ermöglicht, alle Datenkonvertierungsfunktionen in jeder Umgebung auszuführen. Auf diese Weise können Sie viele der Fallstricke einer schlechten Datenaufnahme vermeiden, da Sie die Datenintegration, -bereinigung und -vorverarbeitung in Ihrer virtuellen Private Cloud durchführen. Mit DataStage behalten Sie die vollständige Kontrolle über die Sicherheit, Datenqualität und Effizienz und erfüllen alle Ihre Datenanforderungen für generative KI-Initiativen.

Während den Möglichkeiten der generativen KI praktisch keine Grenzen gesetzt sind, gibt es Grenzen bei den Daten, die ein Modell verwendet - und diese Daten können durchaus den entscheidenden Unterschied ausmachen.

Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken