Was ist eine Datenbank?

Person betrachtet Datenvisualisierungen vor einem großen Bildschirm

Autoren

Matthew Kosinski

Staff Editor

IBM Think

Was ist eine Datenbank? 

Eine Datenbank ist ein digitales Repository zum Speichern, Verwalten und Sichern organisierter Datensammlungen. 

Unterschiedliche Arten von Datenbanken speichern Daten auf unterschiedliche Weise. Zum Beispiel speichern relationale Datenbanken sie in definierten Tabellen mit Zeilen und Spalten, während nicht-relationale Datenbanken sie in einer Vielzahl von Datenstrukturen speichern können, darunter Schlüssel-Wert-Paare oder Diagramme.

Unternehmen nutzen diese verschiedenen Arten von Datenbanken, um unterschiedliche Arten von Daten zu verwalten. Relationale Datenbanken eignen sich hervorragend für strukturierte Daten wie Finanzunterlagen. Nicht relationale Datenbanken eignen sich am besten für unstrukturierte Datentypen wie Textdateien, Audio- und Videodateien. Vektordatenbanken speichern Daten als Vektoreinbettungen, ein Format, das von vielen Anwendungen der generativen KI verwendet wird.

Unternehmen verfügen über große Datenmengen – oft in Petabytes oder Billiarden Bits gemessen – zu allen möglichen Themen, von Kundentransaktionen und Produktbeständen bis hin zu internen Prozessen und firmeneigenen Forschungsprojekten. Diese Daten müssen in einer kohärenten Datenarchitektur organisiert werden, damit Benutzer und Anwendungen bei Bedarf darauf zugreifen können.  

Datenbanken sind die Grundlage für den Aufbau einer solchen Datenarchitektur. Sie sind mehr als nur ein Ort, um Informationen zu speichern. Vielmehr ermöglichen sie Unternehmen die zentrale Verwaltung von Daten, die Durchsetzung von Datenintegrität und Sicherheitsstandards und erleichtern den Datenzugriff. 

Mit den richtigen Datenbanksystemen können Unternehmen hochwertige Datensätze für wichtige Geschäftsinitiativen nutzen, darunter Projekte in den Bereichen Business Intelligence (BI), künstliche Intelligenz (KI) und maschinelles Lernen (ML).

Was eine Datenbank nicht ist

Der Begriff „Datenbank“ wird oft sehr frei verwendet, was zu Verwirrung darüber führen kann, was eine Datenbank ist – und was nicht. 

Eine Datenbank ist ein System zur Speicherung und Verwaltung von Daten. Sie umfasst sowohl die physische Hardware, auf der die Daten gespeichert werden, als auch die Software, die den Zugriff auf die Daten organisiert und kontrolliert. 

Datenbanken bilden die Grundlage für einen Großteil der modernen IT-Infrastruktur, einschließlich Websites, Apps und Plattformen wie Amazon und Google. Diese Services sind selbst keine Datenbanken, aber sie stützen sich auf Datenbanken, um Informationen zu verwalten, wie z. B. Produktbestände oder Suchergebnisse.

Es ist auch erwähnenswert, dass Microsoft Excel keine Datenbank, sondern eine Tabellenkalkulationsanwendung ist. Eine Excel-Tabelle organisiert Daten in Zeilen und Spalten, ähnlich wie eine relationale Datenbank, aber diese Tabelle ist eine einzelne Datei. Datenbanken hingegen sind robuste, zentral verwaltete Systeme, die viele verschiedene Datentypen in vielen verschiedenen Formaten speichern können und gleichzeitig komplexere Abfragen unterstützen.  

Typen von Datenbanken

Unternehmen verwenden verschiedene Arten von Datenbanken, um unterschiedliche Arten von Daten zu verwalten und unterschiedliche Anwendungen zu unterstützen. Zu den häufigsten Arten von Datenbanken gehören:

  • Navigationsdatenbanken
  • Relationale Datenbanken
  • Nicht-relationale Datenbanken oder NoSQL-Datenbanken
  • Objektorientierte Datenbanken
  • Vektor-Datenbanken
  • Cloud databases

Navigationsdatenbanken

Navigationsdatenbanken speichern Daten in Form von verknüpften Datensätzen. Benutzer müssen zwischen diesen Datensätzen navigieren, um die gewünschten Daten zu erreichen, daher der Name.

Die beiden häufigsten Arten von Navigationsdatenbanken sind hierarchische Datenbanken und Netzwerkdatenbanken.

  • Hierarchische Datenbanken ordnen Daten in einer baumartigen Struktur aus übergeordneten und untergeordneten Datensätzen an. Jeder untergeordnete Datensatz kann nur einen einzigen übergeordneten Datensatz haben, aber übergeordnete Datensätze können mehrere untergeordnete Datensätze haben. Um den gewünschten Datensatz zu erreichen, müssen Benutzer am Anfang der Baumstruktur beginnen und sich nach unten vorarbeiten. 

  • Netzwerkdatenbanken verhalten sich ähnlich wie hierarchische Datenbanken, mit der Ausnahme, dass jeder untergeordnete Datensatz mit mehreren übergeordneten Datensätzen verknüpft werden kann. Benutzer müssen weiterhin durch verknüpfte Datensätze navigieren, in der Regel mithilfe von Zeigern, um zu den gewünschten Daten zu gelangen.

Navigationsdatenbanken waren früher weit verbreitet, aber Fortschritte in der Datenbanktechnologie – insbesondere die Entwicklung des relationalen Datenmodells – haben sie weitaus weniger populär gemacht.

Relationale Datenbanken

Relationale Datenbanken speichern Daten in formatierten Tabellen aus Zeilen und Spalten. Sie werden manchmal auch als „SQL-Datenbanken“ bezeichnet, da viele relationale Datenbanken die Verwendung der Structured Query Language (SQL) zur Abfrage und Bearbeitung von Daten unterstützen. (Weitere Informationen finden Sie unter „Datenbanksprachen“.)

Jede Tabelle in einer relationalen Datenbank enthält Informationen zu einem bestimmten Entitätstyp. Beispielsweise könnte ein Unternehmen eine Tabelle mit Informationen zu all seinen Kunden haben, sowie separate Tabellen, in denen die Kaufhistorie jedes einzelnen Kunden aufgeführt ist. 

Der IBM-Wissenschaftler Edgar F. Codd entwickelte in den 1970er Jahren das relationale Modell. Das Modell übertraf schnell die Beliebtheit des Navigationsmodells, da es das Abrufen von Daten erheblich vereinfacht. Anstatt Pfade zwischen Datensätzen anzugeben, können Benutzer SQL-Anweisungen verwenden, um die gewünschten Daten zu benennen. Die Datenbank findet heraus, wie die relevanten Datensätze abgerufen werden können, oft durch die Verwendung von Indizes anstelle von vollständigen Tabellenscans, um den Prozess zu beschleunigen.

Relationale Datenbanken reduzieren auch die Redundanz, da jeder Datenpunkt nur einmal zu speichern ist. Daten aus verschiedenen Tabellen können in einer Einzelansicht kombiniert werden, ohne dass die Daten dupliziert werden müssen. 

Relationale Datenbanken gehören heute zu den am häufigsten verwendeten Datenbanken. Sie eignen sich gut für die Verwaltung von strukturierten Datensätzen mit einem Standardformat, wie z. B. Finanztransaktionen oder Kontaktinformationen von Benutzern.

Eine neuere Klasse relationaler Datenbanken, sogenannte „NewSQL-Datenbanken“, zielt darauf ab, das relationale Modell durch die Einführung einer verteilten Datenbankarchitektur, d. h. durch die Verteilung von Daten auf mehrere Datenbankserver, skalierbar zu machen. 

Nicht-relationale Datenbanken oder NoSQL-Datenbanken

„Nicht-relationale Datenbank“ ist im Grunde ein Sammelbegriff für jede Datenbank, die Daten nicht in einem starren Format, wie z. B. einer Tabelle, speichert. Sie werden manchmal als „NoSQL-Datenbanken“ bezeichnet, da sie in der Regel kein SQL benötigen, um zu navigieren.

Nicht-relationale Datenbanken wurden entwickelt, um unstrukturierte und halbstrukturierte Datentypen – wie Freiform-Text und Bilder – zu unterstützen, die nicht genau in relationale Tabellen passen.

Zu den gängigen Arten von nicht-relationalen Datenbanken gehören:

  • Graphdatenbanken speichern Daten als „Knoten“ (die Entitäten darstellen) und „Edges“ (die Beziehungen zwischen ihnen darstellen). Graphdatenbanken werden häufig verwendet, um Beziehungen nachzuvollziehen, z. B. die Verbindungen zwischen Nutzern eines sozialen Netzwerks. 

  • Dokumentendatenbanken speichern Daten als Dokumente, einschließlich Formaten wie JSON, XML und BSON. Dokumentendatenbanken sind in Content-Management-Systemen weit verbreitet. 

  • Schlüssel-Wert-Datenbanken speichern Informationen als Schlüssel-Wert-Paare, wobei die Schlüssel eindeutige Kennungen sind (z. B. die ID eines digitalen Warenkorbs) und die Werte Datenfelder sind (z. B. die Artikel im Warenkorb). 

  • Datenbanken mit breiten Spalten verwenden Zeilen und Spalten ähnlich wie relationale Datenbanken. Der Unterschied besteht darin, dass jede Zeile ihren eigenen Satz von Spalten haben kann, in denen andere Informationen speichern sind als die anderen Zeilen. Wide-Column-Datenbanken werden häufig zur Unterstützung von Data Warehouses verwendet, in denen Daten aus mehreren Quellen extrahiert und zentralisiert werden müssen.

Objektorientierte Datenbanken

Objektorientierte Datenbanken, auch Objektdatenbanken genannt, speichern Daten als Objekte im Sinne der objektorientierten Programmierung. 

Objekte sind im Grunde Bündel von Informationen und zugehörigem Code. Jedes Objekt stellt eine Entität dar. Objekte sind in Klassen gruppiert und verfügen über Attribute, die ihre Eigenschaften beschreiben, und Methoden, die ihr Verhalten definieren. 

Ein Objekt der Kategorie „Katze“ könnte beispielsweise die Attribute „Farbe“ und „Gewicht“ sowie die Methoden „Schnurren“ und „Jagen“ haben.

Objektorientierte Datenbanken wurden in den 1990er Jahren zusammen mit der objektorientierten Programmierung immer beliebter. Relationale Datenbanken können für einige Apps, die mit objektorientierten Sprachen erstellt wurden, Probleme bereiten, da Datenobjekte in Tabellen konvertiert werden müssen, um in diesen Datenbanken gespeichert zu werden. Objektorientierte Datenbanken ermöglichen es Entwicklern, dieses Problem zu vermeiden. 

Vektor-Datenbanken

Vektordatenbanken speichern Informationen als Zahlenreihen, die als „Vektoren“ bezeichnet werden und nach Ähnlichkeit gruppiert werden. Ein Wettermodell könnte zum Beispiel die Tiefst-, Mittel- und Höchsttemperaturen für einen einzigen Tag in Vektorform speichern: [62, 77, 85].

Vektoren können auch komplexe Objekte wie Wörter, Bilder, Videos und Audio darstellen. Hochdimensionale Vektordaten sind unerlässlich für maschinelles Lernen, Verarbeitung natürlicher Sprache (NLP) und andere KI-Aufgaben.    

Vektordatenbanken sind in KI- und ML-Anwendungsfällen üblich. Beispielsweise verwenden viele Implementierungen von Retrieval-Augmented Generation (RAG) Frameworks, die es Large Language Models (LLMs) ermöglichen, Fakten aus einer externen Wissensdatenbank abzurufen – mit Hilfe von Vektordatenbanken. 

Cloud databases

Cloud-Datenbanken sind Datenbanken, die in der Cloud gehostet werden. Jede Art von Datenbank – relationale, nicht-relationale oder sonstige – kann eine Cloud Databases sein.

Es gibt zwei Haupttypen von Cloud-Datenbanken. Das erste und grundlegendste ist ein selbstverwaltetes Datenbanksystem, das in der Cloud läuft. Die zweite heißt Database as a Service (DBaaS).

DBaaS ist ein Cloud-Computing-Service, der es Benutzern ermöglicht, auf Datenbanksoftware zuzugreifen und diese zu nutzen, ohne das System selbst verwalten zu müssen. Wie der Name schon sagt, bieten DBaaS-Anbieter eine Suite von Datenbankdiensten an, darunter Upgrades, Backup, Datenbanksicherheit und mehr.

Cloud-Datenbanken sind besser skalierbar als On-Premises-Datenbanken. Wenn ein Unternehmen mehr Speicherplatz benötigt oder die Leistung nachlässt, kann es bei Bedarf weitere Ressourcen bereitstellen.  

Andere Arten von Datenbanken

  • Multimodell-Datenbanken können mehr als einen Datentyp speichern. Die IBM® Db2® Cloud Database kann beispielsweise XML-, JSON-, Text- und räumliche Daten in einer einzigen Datenbankinstanz unterstützen. 

  • In-Memory-Datenbanken speichern Informationen im Hauptspeicher oder RAM eines Geräts. Anwendungen können Daten normalerweise schneller aus dem RAM abrufen als aus einer herkömmlichen Datenbank. Daher werden In-Memory-Datenbanken häufig verwendet, um Daten zwischenzuspeichern und die Echtzeit-Datenverarbeitung zu unterstützen. Allerdings ist die Speicherkapazität viel begrenzter und Daten können leicht verloren gehen, da RAM flüchtiger ist als eine Standarddatenbank.

Schwarze Frau arbeitet am Laptop

Bleiben Sie über die neuesten Tech-News auf dem Laufenden.

Wöchentliche Erkenntnisse, Forschungsergebnisse und Expertenmeinungen zu KI, Sicherheit, Cloud und mehr im Think Newsletter.

Datenbanken im Vergleich zu Data Lakes, Data Warehouses und Data Lakehouses

Datenbanken sind nicht die einzige Möglichkeit, Daten zu organisieren, und Unternehmen verwenden oft verschiedene Datenspeicher, um unterschiedliche Initiativen zu unterstützen.

  • Datenbanken sind in erster Linie für die automatische Datenerfassung, schnelle Abfragen und die Transaktionsverarbeitung konzipiert.  

  • Data Lakes sind kostengünstige Speicherumgebungen, die für die Verarbeitung großer Mengen strukturierter und unstrukturierter Rohdaten konzipiert sind. Im Gegensatz zu Datenbanken werden Daten in Data Lakes in der Regel nicht bereinigt, validiert oder normalisiert. Diese Systeme speichern in der Regel riesige Datenmengen, um Aktivitäten wie KI-Training und Big-Data-Analysen zu unterstützen, bei denen Echtzeitleistung weniger wichtig ist.

  • Data Warehouses werden zur Unterstützung von Data Analytics, Business Intelligence und Data Science aufgebaut. Sie sammeln Daten aus verschiedenen Datenbanken, bereinigen sie und bereiten sie so auf, dass sie verwendet werden können. 

  • Data Lakehouses vereinen die Fähigkeiten von Warehouses und Seen in einer einzigen Datenmanagementlösung. Ein Lakehouse kombiniert kostengünstige Speicherung mit einer leistungsstarken Abfrage-Engine und intelligenter Metadatenverwaltung. Dadurch können Unternehmen große Mengen strukturierter und unstrukturierter Daten speichern und diese Daten problemlos für KI-, ML- und Analysezwecke nutzen.

Funktionsweise einer Datenbank

Auf hoher Ebene besteht ein Datenbanksystem aus zwei Schlüsselkomponenten: dem Datenspeichersystem, das die Daten physisch oder logisch beherbergt, und dem Datenbankmanagementsystem (DBMS), das es Benutzern ermöglicht, mit den gespeicherten Datensätzen zu interagieren.

Man kann sich auch die Komponenten eines Datenbanksystems genauer ansehen, um ein noch besseres Verständnis dafür zu bekommen, wie eine Datenbank funktioniert.

Datenbank-Hardware

Datenbanken müssen ihre Daten irgendwo speichern, auf irgendeiner Art von Hardware. Allerdings sind für Datenbanken keine speziellen Maschinen erforderlich.

Stattdessen bestehen die meisten Datenbanksysteme aus einer Datenbanksoftware, die auf einem Computer, Server oder einem anderen Gerät ausgeführt wird. Der Computer stellt die physische Hardware bereit, auf der die Datenbank läuft. Die Software übernimmt die logische Anordnung der Daten. Zum Beispiel die Formatierung der Daten als Tabellen in einer relationalen Datenbank oder als Diagramme in einer Diagrammdatenbank. 

Eine Datenbank und die Anwendungen, die sie nutzen, können auf derselben Hardware laufen, aber heutzutage verwenden die meisten Datenbanksysteme eine mehrschichtige Architektur, die Anwendungsserver und Datenbankserver voneinander trennt. Diese Anordnung bietet mehr Skalierbarkeit und Zuverlässigkeit. App- und Datenbankserver können unabhängig voneinander skaliert werden, und Ausfälle auf einer Ebene müssen sich nicht auf die anderen auswirken. 

Datenmodelle und Datenbankmodelle

Ein Datenmodell ist eine visuelle Darstellung eines Informationssystems. Modelle sind konzeptionelle Hilfsmittel, die Datenbankadministratoren und -designer verwenden, um die Arten von Daten, die sie verfolgen müssen, die Beziehungen zwischen Datenpunkten und die beste Organisation der Daten zu verstehen.

Diagramm zur logischen Datenmodellierung

Das Datenmodell hilft bei der Identifizierung des richtigen Datenbankmodells, d. h. der praktischen Umsetzung des Datenbanksystems, einschließlich technischer Anforderungen und Speicherformate. Das vorangegangene logische Datenmodell könnte beispielsweise zu einer relationalen Datenbank führen, die wie folgt aussieht: 

Diagramm zur physischen Datenmodellierung

Datenbank-Schemata

Ein Datenbankschema definiert technisch und logisch, wie Daten in einer Datenbank organisiert sind. Anders ausgedrückt übersetzt es das Datenmodell in eine Reihe von Regeln, die die Datenbank befolgen muss. 

Ein relationales Datenbankschema würde beispielsweise Elemente wie Tabellennamen, Felder, Datentypen und Beziehungen zwischen diesen Elementen definieren.

Schemas können durch visuelle Diagramme dargestellt, mit SQL-Anweisungen oder anderen Programmiersprachen geschrieben oder auf andere Weise definiert werden. Das hängt von der Art des Schemas und dem jeweiligen Datenbanksystem ab.

Alle relationalen Datenbanksysteme verfügen über Schemata. Einige nicht-relationale Datenbanken haben Schemata, andere nicht, und bei wieder anderen sind sie zulässig, aber nicht erforderlich. 

Datenbankmanagementsysteme (DBMS)

Ein Datenbankmanagementsystem (DBMS) ist eine Software, die es Datenbankadministratoren, Benutzern und Anwendungen ermöglicht, einfach auf Daten in einer Datenbank zuzugreifen.  

Mit DBMS-Systemen können Benutzer wichtige Aufgaben der Datenverwaltung ausführen, z. B. Datenbanken formatieren, Metadaten verwalten, Datensätze abfragen und Daten hinzufügen, aktualisieren oder löschen.

Einige DBMS helfen bei der Durchsetzung von Datensicherheitsmaßnahmen, z. B. durch die Anwendung von Datenbankzugriffskontrollen und die Protokollierung von Benutzeraktivitäten. Sie könnten auch die Datenbankleistung verfolgen.

Wie die Datenbanken selbst können auch DBMS im Modell variieren. Zum Beispiel sind relationale Datenbankmanagementsysteme (RDBMS) für relationale Datenbanken konzipiert, während objektorientierte Datenbankmanagementsysteme (OODBMS) objektorientierte Datenbanken verwalten.  

Zu den gängigen Datenbankverwaltungssystemen gehören:

  • MySQL ist ein Open-Source-RDBMS, das häufig für E-Commerce-Websites und andere Web-Apps verwendet wird.

  • PostgreSQL ist dafür bekannt, dass es den Schwerpunkt auf Erweiterbarkeit und Transaktionszuverlässigkeit legt.

  • Microsoft SQL Server wird häufig von Unternehmen mit Microsoft-Netzwerken verwendet. 

  • Oracle Database ist ein Multimodell-DBMS, das sowohl strukturierte als auch unstrukturierte Daten verwalten kann. 

  • IBM Db2 ist ein cloudnatives Datenbanksystem, das Datenbankmanagement, Warehousing, Speicher und andere Funktionen zur Unterstützung von Echtzeitanalyse und KI-Anwendungen umfasst.  

Datenbanksprachen

Datenbanksprachen sind spezielle Programmiersprachen, mit denen Menschen mit Datenbanken interagieren. Sie geben Benutzern eine Syntax zum Schreiben von Abfragen an, um Daten abzurufen, zu kombinieren, zu aktualisieren oder anderweitig zu verwenden. 

Die am häufigsten verwendete Datenbanksprache ist die Structured Query Language (SQL), die von den meisten relationalen Datenbanken verwendet wird. SQL wurde in den 1970er Jahren von IBM-Wissenschaftlern entwickelt und unterstützt Datenbankadministratoren, Entwickler und Datenanalysten bei der Durchführung von Aufgaben wie Datendefinition, Zugriffskontrolle, Datenfreigabe, Datenintegration und analytischen Abfragen.

Andere Datenbanksprachen sind Object Query Language (OQL), die mit objektorientierten Datenbanken arbeitet, und XQuery, die mit XML-Dokumentdatenbanken arbeitet. 

Es gibt auch datenbankspezifische Sprachen wie MongoDB Query Language (MQL) für MongoDB und Cassandra Query Language (CQL) für Apache Cassandra. 

Warum Datenbanken wichtig sind

Datenbanken sind für viele Technologien von entscheidender Bedeutung, auf die sich die Menschen heute verlassen, von Banking-Apps, die Finanztransaktionen in relationalen Datenbanken verfolgen, bis hin zu KI-Assistenten, die Vektordatenbanken zur Verbesserung der Genauigkeit verwenden. Datenbanken sind gerade deshalb so gebräuchlich, weil sie entscheidend sind für die Unterstützung von:

  •  Datennutzbarkeit
  •  Datenintegrität
  •  Datensicherheit und Compliance

Datennutzbarkeit

Unternehmen verfügen heute über gewaltige Datenmengen, aber das bedeutet nicht viel, wenn die Mitarbeiter diese Daten nicht nutzen können. Laut dem IBM Data Differentiator werden sogar 68 % der Unternehmensdaten nie analysiert. Der Grund liegt häufig in der Unkenntnis der Mitarbeiter oder in Silos, die ihnen den Zugang zu den Informationen verwehren.

Datenbanken bieten Organisationen die Möglichkeit, eine Sammlung von Daten zu kuratieren, zu speichern und zentral zu verwalten. Sie können auch dazu beitragen, einen Großteil des Datenerfassungsprozesses zu automatisieren, einschließlich der Erfassung von Ereignissen und Transaktionen in Echtzeit.

Die Art und Weise, wie Unternehmen ihre Datenbankanwendungen auswählen, gestalten und implementieren, kann über Erfolg oder Misserfolg wichtiger Geschäftsinitiativen entscheiden. Wenn Daten organisiert und leicht zugänglich sind, können sie die Entscheidungsfindung vorantreiben, die Business Intelligence fördern und KI- und ML-Projekte unterstützen.

Datenintegrität

Datenbanken können gegenüber Tabellen und anderen manuellen Aufzeichnungsprozessen, die anfällig für Fehler, Redundanz und Ungenauigkeiten sind, erhebliche Vorteile bieten.

Da Datenbanken zentral verwaltet werden können, können sie die Durchsetzung von Bereinigungs- und Formatierungsregeln, die Überwachung der Nutzung und die Nachverfolgung der Datenabstammung erleichtern. Datenbanken machen es auch überflüssig, mehrere Kopien von Datensätzen zu verteilen, die mit der Zeit nicht mehr synchronisiert sein können. Stattdessen kann jede Anwendung und jeder Benutzer auf demselben gemeinsamen Repository arbeiten. 

Letztendlich können Datenbanken dazu beitragen, Benutzer aller Art – Personen, Apps, APIs– mit sauberen, vertrauenswürdigen Daten zu verbinden. 

Datensicherheit und Compliance

Je nach Standort und Branche müssen Unternehmen die Vorschriften zur Datensicherung und zum Datenschutz einhalten, wie z. B. den US-amerikanischen Health Insurance Portability and Accountability Act (HIPAA) und die Datenschutz-Grundverordnung (DSGVO) der EU.

Über die gesetzlichen Anforderungen hinaus haben Unternehmen ein geschäftliches Interesse daran, unbefugten Datenzugriff zu verhindern. Laut dem IBM Cost of a Data Breach Report verursacht ein durchschnittlicher Datenschutzverstoß 4,88 Mio. USD, die sich aus entgangenen Geschäften, Systemausfallzeiten, Sanierungsmaßnahmen und anderen Kosten zusammensetzen.

Datenbanken können zum Schutz von Daten und zur Einhaltung von Vorschriften beitragen, indem sie Maßnahmen zur Datensicherheit durchsetzen, wie z. B. rollenbasierte Zugriffskontrollen (RBAC), um sicherzustellen, dass nur die richtigen Benutzer auf die richtigen Daten zugreifen können. 

Die Rolle von Datenbanken in KI-Initiativen

75 % der CEOs glauben, dass die fortschrittlichste generative KI in Zukunft ein entscheidender Faktor für den Wettbewerbsvorteil eines Unternehmens sein wird. Um solche fortschrittlichen KI zu unterstützen, müssen Unternehmen in der Lage sein, riesige Mengen strukturierter und unstrukturierter Daten zu speichern, zu verwalten und zu kontrollieren. Dies ist nur mit den richtigen Datenbanksystemen möglich.

Verschiedene Arten von Datenbanken können KI- und ML-Bemühungen auf unterschiedliche Weise unterstützen. Beispielsweise werden Vektordatenbanken häufig zur Implementierung von RAG-Frameworks verwendet, die dazu beitragen können, Halluzinationen zu reduzieren. Schlüsselwert-Datenbanken können die Datenabfrage und -verarbeitung beschleunigen. In-Memory-Datenbanken können Caching und Streaming-Analysen unterstützen.

Datenbanküberlegungen

Mehrere Faktoren können die Art der Datenbanken beeinflussen, die ein Unternehmen für eine bestimmte Initiative auswählt. Einige der wichtigsten sind:

  • Art der Daten: Jede Art von Datenbank kann bestimmte Arten von Daten besser verarbeiten als andere. Zum Beispiel ist eine Graphdatenbank oft die bessere Wahl für die Abbildung von Beziehungen als eine SQL Database.

  • Zweck: Verschiedene Arten von Datenbanken eignen sich auch besser für verschiedene Anwendungen. Beispielsweise ist eine Vektordatenbank oft die beste Wahl für ein RAG-Framework.  

  • Leistungsanforderungen: Wenn eine App kontinuierlich Daten in Echtzeit abruft, benötigt das Unternehmen eine Datenbank, die für eine schnelle Abfrage optimiert ist. Benötigt das Unternehmen jedoch einen Ort, an dem Daten gespeichert werden können, bevor sie an ein Lager gesendet werden, ist die Leistung möglicherweise weniger wichtig.

  • Preis: Die Menge der Daten, die ein Unternehmen speichern muss, das Format dieser Daten und die Leistungsanforderungen können alle zu den Datenbankkosten beitragen.

  • Skalierbarkeit: Einige Datenbanken können nur vertikal skaliert werden, d. h. einem vorhandenen Server oder Computer müssen mehr Ressourcen hinzugefügt werden. Andere können horizontal skaliert werden, d. h. es können mehr Server hinzugefügt werden, um die Datenbank auf verteilte Weise zu unterstützen.