Das Aufkommen der generativen KI veranlasste mehrere namhafte Unternehmen, deren Nutzung aufgrund des falschen Umgangs mit sensiblen internen Daten einzuschränken. Nach Angaben von CNN haben einige Unternehmen interne Verbote für generative KI-Tools verhängt, um die Technologie besser zu verstehen, und viele haben auch die Verwendung von internem ChatGPT blockiert.
Unternehmen nehmen bei der Erforschung großer Sprachmodelle (LLMs) häufig noch immer das Risiko in Kauf, interne Daten zu verwenden, da diese kontextbezogenen Daten den Wandel von LLMs von allgemeinem zu domänenspezifischem Wissen erst ermöglichen. Im Entwicklungszyklus der generativen KI oder traditionellen KI dient die Datenaufnahme als Einstiegspunkt. Hier können Rohdaten, die auf die Anforderungen eines Unternehmens zugeschnitten sind, gesammelt, vorverarbeitet, maskiert und in ein für LLMs oder andere Modelle geeignetes Format umgewandelt werden. Derzeit gibt es kein standardisiertes Verfahren zur Bewältigung der Herausforderungen bei der Dateneingabe, aber die Genauigkeit des Modells hängt davon ab.
Branchen-Newsletter
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Die Datenaufnahme muss von Anfang an ordnungsgemäß erfolgen, da eine falsche Handhabung zu einer Vielzahl neuer Probleme führen kann. Die Arbeit an Trainingsdaten in einem KI-Modell ist mit dem Steuern eines Flugzeugs vergleichbar. Wenn der Startwinkel um ein Grad abweicht, könnten Sie auf einem völlig neuen Kontinent landen als erwartet.
Die gesamte generative KI-Pipeline hängt von den Datenpipelines ab, die sie ermöglichen, weshalb es unerlässlich ist, die richtigen Vorkehrungen zu treffen.
IBM DataStage rationalisiert die Datenintegration durch die Kombination verschiedener Tools. So können Sie mühelos Daten abrufen, organisieren, umwandeln und speichern, die für KI-Trainingsmodelle in einer Hybrid-Cloud-Umgebung benötigt werden. Datenexperten aller Qualifikationsstufen können das Tool verwenden, indem sie eine grafische Benutzeroberfläche ohne Code verwenden oder auf APIs mit geführtem benutzerdefiniertem Code zugreifen.
Die neue Remote-Runtime-Option von DataStage as a Service Anywhere bietet Flexibilität bei der Ausführung Ihrer Datenkonvertierungen. Sie ermöglicht Ihnen, die parallele Engine von überall aus zu nutzen und gibt Ihnen eine noch nie dagewesene Kontrolle über ihren Standort. DataStage als Service Anywhere erscheint als ein leichter Container, der es Ihnen ermöglicht, alle Datenkonvertierungsfunktionen in jeder Umgebung auszuführen. Auf diese Weise können Sie viele der Fallstricke einer schlechten Datenaufnahme vermeiden, da Sie die Datenintegration, -bereinigung und -vorverarbeitung in Ihrer virtuellen Private Cloud durchführen. Mit DataStage behalten Sie die vollständige Kontrolle über die Sicherheit, Datenqualität und Effizienz und erfüllen alle Ihre Datenanforderungen für generative KI-Initiativen.
Während den Möglichkeiten der generativen KI praktisch keine Grenzen gesetzt sind, gibt es Grenzen bei den Daten, die ein Modell verwendet - und diese Daten können durchaus den entscheidenden Unterschied ausmachen.
Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.