Unternehmen müssen sich auf den Aufbau einer offenen und vertrauenswürdigen Datengrundlage konzentrieren, um auf vertrauenswürdige Daten für KI zugreifen zu können. Open schafft eine Grundlage für die Speicherung, Verwaltung, Integration und Zugriff auf Daten, die auf offenen und interoperablen Funktionen basieren, die Hybrid Cloud, Datenspeicher, Datenformate, Abfrage-Engines, Governance und Metadaten umfassen. Dies ermöglicht eine einfachere Integration in Ihre bestehenden Technologieinvestitionen, beseitigt Datensilos und beschleunigt die datengesteuerte Transformation.

Die Schaffung einer vertrauenswürdigen Datengrundlage ermöglicht eine qualitativ hochwertige, zuverlässige, sichere und verwaltete Daten- und Metadatenverwaltung, damit diese für Analyse und KI-Anwendungen bereitgestellt werden können und gleichzeitig die Anforderungen an den Datenschutz und die Einhaltung gesetzlicher Vorschriften erfüllt werden. Die folgenden vier Komponenten tragen zum Aufbau einer offenen und vertrauenswürdigen Datengrundlage bei.

1. Modernisierung Ihrer Dateninfrastruktur zu einer Hybrid Cloud für Anwendungen, Analyse und generative KI

Die Einführung von Multicloud- und Hybridstrategien wird zunehmend zur Pflicht und erfordert Datenbanken, die flexible Bereitstellungen in der Hybrid Cloud unterstützen. Gartner prognostiziert, dass 95 % (Link befindet sich außerhalb von ibm.com) der neuen digitalen Initiativen auf cloudnativen Plattformen entwickelt werden, was für KI-Technologien unerlässlich ist, die massive Datenspeicherung und Skalierbarkeit erfordern.

2. Antrieb datengesteuerter Anwendungen, Analyse und KI mit den richtigen Datenbanken und der offenen Data Lakehouse Strategie

Für die Speicherung und Analyse von Daten müssen Sie die richtige Datenbank für den richtigen Workload, die richtigen Datentypen und die richtige Leistung verwenden. Dadurch wird sichergestellt, dass Sie über eine Datengrundlage verfügen, die mit Ihren Datenbedürfnissen mitwächst – unabhängig davon, wo sich Ihre Daten befinden. Ihre Datenstrategie sollte Datenbanken mit offenen und integrierten Komponenten umfassen, die eine nahtlose Vereinheitlichung und den Zugriff auf Daten für erweiterte Analysen und KI-Anwendungen innerhalb einer Datenplattform ermöglichen. So kann Ihr Unternehmen wertvolle Erkenntnisse gewinnen und fundierte Entscheidungen treffen.

Beispielsweise benötigen Unternehmen hochleistungsstarke, sichere und resiliente Transaktionsdatenbanken, um ihre kritischen Daten zu verwalten. Mit der Verfügbarkeit der Hybrid Cloud können Unternehmen ihre Datenbanken nutzen, um ihre Altlast Apps zu modernisieren, neue cloudnativ Apps zu bauen und KI-Assistenten und Anwendungen zu betreiben.

Da sich Datentypen und Anwendungen weiterentwickeln, benötigen Sie möglicherweise spezialisierte NoSQL-Datenbanken, um unterschiedliche Datenstrukturen und spezifische Anwendungsanforderungen zu verarbeiten. Dazu gehören Zeitreihen-, Dokumentations-, Messaging-, Schlüssel-Wert-, Volltextsuch- und In-Memory-Datenbanken, die verschiedene Anforderungen erfüllen, wie z. B. IoT, Content-Management und Geodatenanwendungen.

Um KI- und Analyse-Workloads über Ihre transaktionalen und speziell entwickelten Datenbanken zu steuern, müssen Sie sicherstellen, dass sie nahtlos in eine Data Lakehouse-Architektur integriert werden können, ohne Duplikate oder zusätzliche Extract, Transform, Load (ETL)-Prozesse. Mit einem offenen Data Lakehouse können Sie auf eine einzige Kopie Ihrer Daten zugreifen, egal wo sich Ihre Daten befinden.

Ein offenes Data Lakehouse verarbeitet mehrere offene Formate (wie Apache Iceberg über Cloud-Objektspeicher) und kombiniert Daten aus verschiedenen Quellen und bestehenden Repositories über die Hybrid Cloud. Das preisgünstigste Data Lakehouse ermöglicht zudem die Trennung von Speicher und Rechenleistung mit mehreren Open Source Abfrage-Engines und Integration mit anderen Analytics Engines, um Workloads für ein überlegenes Preis-Leistungs-Verhältnis zu optimieren.

Dazu gehört die Integration mit Ihren Data Warehouse-Engines, die nun Echtzeit-Datenverarbeitung und Entscheidungsfindung mit kosteneffizienter Object Storage, Open Source-Technologien und einer gemeinsamen Metadatenschicht in Einklang bringen müssen, um Daten nahtlos mit Ihrem Data Lakehouse zu teilen. Mit einer offenen Data Lakehouse-Architektur können Sie jetzt Ihre Data Warehouse-Workloads für die Preisleistung optimieren und traditionelle Data Lakes mit besserer Leistung und Governance für KI modernisieren.

Unternehmen verfügen möglicherweise auch über Petabytes, wenn nicht gar Exabytes an wertvollen firmeneigenen Daten, die in ihren Mainframes gespeichert sind und für neue Erkenntnisse und ML/KI-Modelle erschlossen werden müssen. Mit einem Data Lakehouse, das die Datensynchronisation zwischen dem Mainframe und offenen Formaten wie Iceberg unterstützt, können Unternehmen Betrug besser erkennen, das Verhalten der Wähler besser verstehen und prädiktive KI-Modelle erstellen, um fortschrittliche Geschäftsergebnisse zu verstehen, vorherzusagen und zu beeinflussen.

Bevor Sie vertrauenswürdige generative KI für Ihr Unternehmen aufbauen können, benötigen Sie die richtige Datenarchitektur, um diese verteilten Daten aufzubereiten und in Qualitätsdaten umzuwandeln. Für generative KI könnte die richtige Datengrundlage verschiedene Wissensspeicher umfassen, darunter NoSQL-Datenbanken für Konversationen, Transaktionsdatenbanken für Kontextdaten, eine Data Lakehouse-Architektur für den Zugriff auf und die Aufbereitung Ihrer Daten für KI und Analyse sowie Vektor-Embedding-Funktionen zum Speichern und Abrufen von Einbettungen für die Retrieval-Augmented Generation (RAG). Eine gemeinsame Metadatenebene, Governance zur Katalogisierung Ihrer Daten und Datenabstammung ermöglichen vertrauenswürdige KI-Outputs.

3. Schaffung einer Vertrauensbasis: Datenqualität und Governance für KI im Unternehmen

Da sich Unternehmen zunehmend auf künstliche Intelligenz (KI) verlassen, um kritische Entscheidungsfindung zu treffen, kann die Bedeutung von Datenqualität und Governance nicht genug betont werden. Laut Gartner werden bis 2025 voraussichtlich 30 % der Projekte für generative KI aufgrund schlechter Datenqualität, unzureichender Risikokontrollen, steigender Kosten oder unklarer Geschäftswerte aufgegeben. Die Folgen der Verwendung minderwertiger Daten sind weitreichend, darunter die Erosion des Kundenvertrauens, die Nichteinhaltung von Vorschriften sowie finanzielle und Reputationsschäden.

Effektives Datenqualitätsmanagement ist entscheidend, um diese Risiken zu mindern. Eine gut durchdachte Datenarchitekturstrategie ist für das Erreichen dieses Ziels unerlässlich. Eine Data Fabric bietet einen robusten Framework für Datenverantwortliche, um Daten zu profilieren, Regeln für die Datenqualität zu entwerfen und anzuwenden, Verstöße gegen die Datenqualität zu entdecken, Daten zu bereinigen und Daten zu ergänzen. Dieser Ansatz gewährleistet, dass Initiativen zur Datenqualität Genauigkeit, Zugänglichkeit, Aktualität und Relevanz gewährleisten.

Darüber hinaus ermöglicht eine Data Fabric die kontinuierliche Überwachung der Datenqualität durch Daten-Observability-Funktionen, so dass Unternehmen Datenprobleme erkennen können, bevor sie zu größeren Problemen eskalieren. Diese Transparenz der Datenflüsse ermöglicht es den Verantwortlichen für Daten und KI auch, potenzielle Probleme zu erkennen und sicherzustellen, dass die richtigen Daten für die Entscheidungsfindung verwendet werden.

Durch die Priorisierung von Datenqualität und Governance können Unternehmen Vertrauen in ihre KI-Systeme aufbauen, Risiken minimieren und den Wert ihrer Daten maximieren. Es ist entscheidend zu erkennen, dass Datenqualität nicht nur eine technische Frage ist, sondern ein zentrales Geschäftsgebot, das Aufmerksamkeit und Investitionen erfordert. Durch die richtige Datenarchitektur-Strategie können Unternehmen das volle Potenzial ihrer KI-Initiativen freischalten und den Geschäftserfolg steigern.

4. Verwaltung und Bereitstellung von Daten für KI

Daten sind für die KI von grundlegender Bedeutung, von der Erstellung von KI-Modellen mit den richtigen Datensätzen über die Abstimmung von KI-Modellen mit branchenspezifischen Unternehmensdaten bis hin zur Verwendung vektorisierter Einbettungen zur Erstellung von RAG-KI-Anwendungen (einschließlich Chatbots, personalisierte Empfehlungssysteme und Anwendungen für die Bildähnlichkeitssuche).

Vertrauenswürdige, verwaltete Daten sind unerlässlich, um die Genauigkeit, Relevanz und Präzision von KI zu gewährleisten. Um den vollen Wert von Daten für KI zu freischalten, müssen Unternehmen in der Lage sein, ihre komplexe Geschäftswelt zu navigieren, Silos aufzubrechen, ihre Daten zu vereinheitlichen und verwaltete Daten für ihre KI-Modelle und Anwendungen vorzubereiten und bereitzustellen.

Mit einer offenen Data-Lakehouse-Architektur, die auf offenen Formaten basiert, um eine Verbindung zu und einen Zugriff auf entscheidende Daten aus Ihrem bestehenden Datenbestand (einschließlich Data Warehouse, Data Lake und Mainframe) zu ermöglichen, können Sie eine einzige Kopie Ihrer Unternehmensdaten verwenden, um KI-Modelle und Anwendungen zu erstellen und abzustimmen.

Mithilfe einer semantischen Schicht können Sie Datenanreicherungen generieren, die es Kunden ermöglichen, zuvor kryptische, effektiv strukturierte Daten in Ihrem gesamten Datenbestand in natürlicher Sprache durch semantische Suche zu finden und zu verstehen, um die Datenerkennung zu beschleunigen und Erkenntnisse schneller freischalten zu können – ganz ohne SQL-Kenntnisse.

Mithilfe einer Vektordatenbank, die direkt in Ihr Lakehouse eingebettet ist, können Sie Ihre Daten nahtlos als vektorisierte Einbettungen für Anwendungsfall RAG speichern und abfragen, wodurch die Relevanz und Präzision Ihrer KI-Outputs verbessert wird.