Was sind Daten?

By Annie Badman , Matthew Kosinski

Daten – Definition

Daten sind eine Sammlung von Fakten, Zahlen, Wörtern, Beobachtungen oder anderen nützlichen Informationen. Durch Datenverarbeitung und -analyse verwandeln Unternehmen Rohdaten in wertvolle Erkenntnisse, die die Entscheidungsfindung verbessern und zu besseren Geschäftsergebnissen führen.

Unternehmen sammeln Daten aus verschiedenen Quellen und in verschiedenen Formaten, darunter nicht-numerische qualitative Daten (wie Kundenbewertungen) und numerische quantitative Daten (wie Verkaufszahlen). Weitere Beispiele für Daten sind öffentliche Daten wie Regierungsstatistiken und Volkszählungsdaten sowie private Daten wie Kaufhistorien von Kunden oder die Gesundheitsakten einer Person.

In den letzten zehn Jahren hat Big Data – große, komplexe Datensätze aus Quellen wie sozialen Medien, E-Commerce und Finanztransaktionen – die digitale Transformation in allen Branchen vorangetrieben. Tatsächlich hat Big Data aufgrund seiner Rolle als Motor für Unternehmenswachstum und Innovation den Spitznamen „das neue Öl“ erhalten.

In den letzten Jahren hat der Aufstieg der künstlichen Intelligenz (KI) den Fokus auf Daten weiter verstärkt. Unternehmen benötigen Daten, um Modelle für maschinelles Lernen (ML) zu trainieren und Vorhersagealgorithmen zu verfeinern. Je mehr hochwertige Daten diese KI-Systeme analysieren, desto genauer und effektiver werden sie.

Angesichts der zunehmenden Menge, Komplexität und Bedeutung von Daten benötigen Unternehmen effektive Datenverwaltungsprozesse, um Informationen zu organisieren und für die Datenanalyse zugänglich zu machen.

Gleichzeitig haben die zunehmenden Bedenken hinsichtlich der Datensicherheit und des Datenschutzes – sowohl von Seiten der Nutzer als auch der Regulierungsbehörden – den Fokus verstärkt auf den Datenschutz und die Einhaltung von Gesetzen wie der Datenschutz-Grundverordnung (DSGVO) und dem California Consumer Privacy Act (CCPA) gelegt.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Typen von Daten

Daten liegen in vielen verschiedenen Formen vor, die jeweils durch ihre einzigartigen Merkmale, Quellen und Formate definiert sind. Das Verständnis dieser Unterschiede kann eine effektivere Organisation und Datenanalyse ermöglichen, da verschiedene Datentypen unterschiedliche Anwendungsfälle unterstützen.

Außerdem kann ein einzelner Datenpunkt oder Datensatz unter mehrere Kategorien fallen. Zum Beispiel strukturiert und quantitativ, unstrukturiert, qualitativ und so weiter.

Zu den häufigsten Datentypen gehören:

Quantitative Daten
Qualitative Daten
Strukturierte Daten
Unstrukturierte Daten
Halbstrukturierte Daten
Metadaten
Big Data

Quantitative Daten

Quantitative Daten bestehen aus Werten, die numerisch gemessen werden können. Beispiele für quantitative Daten sind diskrete Datenpunkte (wie die Anzahl der verkauften Produkte) oder kontinuierliche Datenpunkte (wie Temperatur- oder Umsatzzahlen).

Quantitative Daten sind oft strukturiert, sodass sie sich leicht mit mathematischen Werkzeugen und Algorithmen analysieren lassen.

Zu den häufigsten Anwendungsfällen quantitativer Daten gehören Trendprognosen, statistische Analysen, Budgetierung, Mustererkennung und Leistungsmessung.

Qualitative Daten

Qualitative Daten sind beschreibend und nicht numerisch und erfassen Merkmale, Konzepte oder Erfahrungen, die nicht durch Zahlen messbar sind. Beispiele hierfür sind Kundenfeedback, Produktbewertungen und Kommentare in den sozialen Medien.

Qualitative Daten können strukturiert (wie codierte Umfrageantworten) oder unstrukturiert (wie Freitextantworten oder Interviewtranskripte) sein.

Zu den häufigsten Anwendungsfällen für qualitative Daten gehören das Verständnis von Kundenverhalten, Markttrends und Nutzererfahrungen.

Strukturierte Daten

Strukturierte Daten sind in einem klaren, definierten Format organisiert und werden oft in relationalen Datenbanken oder Tabellen gespeichert. Sie können sowohl aus quantitativen (z. B. Verkaufszahlen) als auch aus qualitativen Daten (z. B. kategorische Bezeichnungen wie „Ja“ oder „Nein“) bestehen.

Beispiele für strukturierte Daten sind Kundendatensätze und Finanzberichte, bei denen die Daten sauber in Zeilen und Spalten mit vordefinierten Feldern passen.

Die hochgradig organisierte Natur strukturierter Daten ermöglicht eine schnelle Abfrage und Datenanalyse und ist daher für Business-Intelligence-Systeme und Berichtsprozesse nützlich.

Unstrukturierte Daten

Unstrukturierten Daten fehlt ein streng definiertes Format. Sie liegt oft in komplexen Formen wie Textdokumenten, Bildern und Videos vor. Unstrukturierte Daten können sowohl qualitative Informationen (z. B. Kundenkommentare) als auch quantitative Elemente (z. B. in Text eingebettete Zahlenwerte) enthalten.

Beispiele für unstrukturierte Daten sind E-Mails, Inhalte aus sozialen Medien und Multimedia-Dateien.

Unstrukturierte Daten lassen sich nicht ohne Weiteres in herkömmliche relationale Datenbanken einfügen. Unternehmen setzen daher häufig Techniken wie die Verarbeitung natürlicher Sprache (NLP) und maschinelles Lernen ein, um die Analyse unstrukturierter Daten zu optimieren.

Unstrukturierte Daten spielen oft eine Schlüsselrolle bei der Stimmungsanalyse, der Erkennung komplexer Muster und anderen fortgeschrittenen Analyseprojekten.

Mehr erfahren Sie über strukturierte vs. unstrukturierte Daten

Semistrukturierte Daten

Semistrukturierte Daten kombinieren Elemente strukturierter und unstrukturierter Daten. Sie folgen keinem starren Format, können aber Tags oder Markierungen enthalten, die die Organisation und Analyse erleichtern. Beispiele für semistrukturierte Daten sind XML-Dateien und JSON-Objekte.

Semistrukturierte Daten werden häufig in Szenarien wie Web-Scraping- und Datenintegrations-Projekten verwendet, da sie Flexibilität bieten und gleichzeitig eine gewisse Struktur für die Suche und Analyse beibehalten.

Metadaten

Metadaten sind Daten über Daten. Mit anderen Worten handelt es sich um Informationen über die Attribute eines Datenpunkts oder Datensatzes, wie z. B. Dateinamen, Autoren, Erstellungsdaten oder Datentypen.

Metadaten verbessern die Organisation, Durchsuchbarkeit und Verwaltung von Daten. Sie sind für Systeme wie Datenbanken, digitale Bibliotheken und Content-Management-Plattformen von entscheidender Bedeutung, da sie den Benutzern das Sortieren und Auffinden der benötigten Daten erleichtern.

Big Data

Big Data bezieht sich auf riesige, komplexe Datensätze, die von traditionellen Systemen nicht verarbeitet werden können. Sie umfasst sowohl strukturierte als auch unstrukturierte Daten aus Quellen wie Sensoren, sozialen Medien und Transaktionen.

Big-Data-Analysen helfen Unternehmen, diese großen Datensätze zu verarbeiten und zu analysieren, um systematisch wertvolle Erkenntnisse zu gewinnen. Dafür sind oft fortschrittliche Tools wie maschinelles Lernen erforderlich.

Zu den gängigen Anwendungsfällen für Big Data gehören die Analyse des Kundenverhaltens, die Betrugserkennung und die vorausschauende Wartung.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Zur Episode wechseln

Warum Daten wichtig sind

Daten ermöglichen es Unternehmen, Rohinformationen in verwertbare Erkenntnisse umzuwandeln, um das Kundenverhalten vorherzusagen, Lieferketten zu optimieren und Innovationen voranzutreiben.

Der Begriff „Daten“ stammt vom Plural von „Datum“, einem lateinischen Wort, das „etwas Gegebenes“ bedeutet: eine Definition, die auch heute noch relevant ist. Täglich stellen Millionen von Menschen Unternehmen Daten zur Verfügung, beispielsweise durch Interaktionen wie Impressionen, Klicks, Transaktionen, Sensormesswerte oder auch einfach nur durch das Surfen im Internet.

Unternehmen aus verschiedenen Branchen können diesen konstanten Informationsfluss dann nutzen, um Wachstum und Innovation voranzutreiben. E-Commerce-Händler beispielsweise nutzen riesige Datensätze und Datenanalysen, um die Nachfrage vorherzusagen und sicherzustellen, dass sie die richtigen Produkte zum richtigen Zeitpunkt auf Lager haben.

In ähnlicher Weise verwenden datengesteuerte Streaming-Plattformen Algorithmen für maschinelles Lernen nicht nur, um Inhalte zu empfehlen, sondern auch, um sie zu optimieren. Dabei wird analysiert, welche Szenen bei den Zuschauern am besten ankommen, um zukünftige Produktionsentscheidungen zu unterstützen.

Daten werden auch im Zeitalter der künstlichen Intelligenz (KI) immer wichtiger, da große, hochwertige Datensätze für das Training von Modellen für maschinelles Lernen erforderlich sind (weitere Informationen finden Sie unter „Die Rolle von Daten in der künstlichen Intelligenz (KI)“).

Darüber hinaus ist die Fähigkeit von KI zur Echtzeit-Datenverarbeitung in Bereichen wie der Cybersicherheit, wo eine schnelle Datenanalyse Bedrohungen identifiziert, bevor sie eskalieren, dem Finanzhandel, wo Entscheidungen in Sekundenbruchteilen den Gewinn beeinflussen, und beim Edge Computing, wo die Verarbeitung von Daten näher an der Quelle zu schnelleren Erkenntnissen, einer schnelleren Entscheidungsfindung und einer besseren Bandbreite führt, von entscheidender Bedeutung.

Wie werden Daten verwendet?

Unternehmen aus verschiedenen Branchen nutzen Daten für unterschiedliche Zwecke, darunter die Verbesserung der Entscheidungsfindung, die Optimierung von Abläufen und die Förderung von Innovationen.

Die üblichen Möglichkeiten, wie Unternehmen Daten in ihren Betriebsabläufen verwendet haben, umfassen:

Vorhersageanalysen
Generative KI
Innovationen im Gesundheitswesen
Sozialwissenschaftliche Forschung
Cybersicherheit und Risikomanagement
betrieblichen Effizienz
Customer Experience
Regierungsinitiativen
Business Intelligence (BI)

Prädiktive Analysen

Vorausschauende Analysen sind ein Teilgebiet der fortgeschrittenen Analyse, bei dem zukünftige Trends und Ergebnisse anhand von historischen Daten in Kombination mit statistischer Modellierung, Data Mining und maschinellem Lernen vorhergesagt werden.

E-Commerce-Unternehmen nutzen häufig vorausschauende Analysen, um das Kaufverhalten von Kunden auf der Grundlage früherer Transaktionen vorherzusagen. In der Fertigungs- und Transportbranche ermöglicht die vorausschauende Analyse eine vorausschauende Wartung, indem Maschinendaten in Echtzeit analysiert werden, um vorherzusagen, wann Geräte wahrscheinlich ausfallen werden, und eine proaktive Wartung zu empfehlen.

Generative KI

Generative KI, manchmal auch als Gen AI bezeichnet, ist künstliche Intelligenz (KI), die als Antwort auf den Prompt oder die Anfrage eines Benutzers Originalinhalte wie Text, Bilder, Video, Audio oder Softwarecode generiert.

Generative KI basiert auf ausgeklügelten Modellen des maschinellen Lernens, die als Deep-Learning-Modelle bezeichnet werden. Diese Modelle werden anhand umfangreicher Datensätze trainiert, wodurch sie beispielsweise in der Lage sind, die Anfragen der Benutzer zu verstehen, personalisierte Marketinginhalte zu generieren und Code zu schreiben.

Innovationen im Gesundheitswesen

Datenanalysen können Gesundheitsdienstleistern dabei helfen, die Patientenversorgung zu verbessern, Krankheitsausbrüche vorherzusagen und Behandlungsprotokolle zu optimieren.

So bietet beispielsweise die Überwachung von Patienten anhand von Zeitreihendaten, wie z. B. die Verfolgung der Vitalwerte von Patienten im Zeitverlauf, Echtzeit-Erkenntnisse in den Zustand der Patienten. Dies wiederum ermöglicht schnellere Eingriffe und eine personalisierte Behandlung.

Sozialwissenschaftliche Forschung

Sozialwissenschaftler analysieren häufig quantitative und qualitative Daten aus Umfragen, Zensusberichten und sozialen Medien. Die Untersuchung dieser Datensätze ermöglicht es ihnen, Verhaltensweisen, Trends und politische Auswirkungen zu untersuchen.

Zum Beispiel könnten Forscher Volkszählungsdaten verwenden, um Bevölkerungsveränderungen zu verfolgen, Umfrageantworten, um die öffentliche Meinung zu messen, und Daten aus sozialen Medien, um neue Trends zu analysieren.

Cybersicherheit und Risikomanagement

Da Cyberangriffe und Datenschutzverletzungen immer häufiger auftreten, setzen Unternehmen zunehmend auf Datenanalysen, um Bedrohungen schneller zu erkennen und darauf zu reagieren, Schäden zu minimieren und Ausfallzeiten zu reduzieren.

Zum Beispiel können SIEM-Systeme (Security Information and Event Management) helfen, Anomalien in Echtzeit zu erkennen und darauf zu reagieren, indem sie Sicherheitswarnungen aus dem gesamten Netzwerk zusammenfassen und analysieren.

Betriebliche Effizienz

Algorithmen für maschinelles Lernen, die auf riesigen Datensätzen trainiert werden, können Unternehmen dabei helfen, ihre betriebliche Effizienz zu steigern, indem sie die Logistik optimieren, die Nachfrage vorhersagen, die Planung verbessern und Workflows automatisieren.

E-Commerce-Unternehmen sammeln und analysieren beispielsweise häufig Echtzeit-Verkaufsdaten, um das Bestandsmanagement zu optimieren und die Wahrscheinlichkeit von Fehlbeständen oder Überbeständen zu verringern.

Customer Experience

Daten sind das Rückgrat personalisierter Customer Experiences, insbesondere im Marketing, wo Unternehmen mithilfe von Datenanalysen Inhalte und Anzeigen auf verschiedene Benutzer zuschneiden können.

Streaming-Services beispielsweise verlassen sich auf Algorithmen für maschinelles Lernen, um Sehgewohnheiten zu analysieren und Inhalte zu empfehlen.

Regierungsinitiativen

Regierungen auf der ganzen Welt nutzen häufig Open-Data-Richtlinien, um wertvolle Datensätze öffentlich zugänglich zu machen und Unternehmen und Organisationen dazu zu ermutigen, diese Ressourcen für Forschung und Innovation zu nutzen.

Die PlattformData.gov der US-Regierung bietet beispielsweise Zugang zu verschiedenen Datensätzen aus den Bereichen Gesundheitswesen, Bildung und Verkehr. Dieser fördert die Transparenz und ermöglicht es Unternehmen verschiedener Branchen, datengestützte Lösungen auf Basis öffentlich zugänglicher Informationen zu entwickeln.

Business Intelligence (BI)

Business Intelligence (BI) umfasst eine Reihe technologischer Prozesse zur Erfassung, Verwaltung und Analyse von Daten. Diese wandeln Rohdaten in Erkenntnisse um, die als Grundlage für Geschäftsentscheidungen dienen können.

Business Analytics ergänzt BI, indem sie Unternehmen dabei unterstützt, Daten anhand von Grafiken, Dashboards und Berichten zu interpretieren und zu visualisieren, sodass Trends leichter erkannt und fundierte Entscheidungen getroffen werden können.

Datenerfassung

Datenerfassung ist der systematische Prozess der Sammlung von Daten aus verschiedenen Quellen, wobei gleichzeitig deren Qualität und Integrität sichergestellt wird. Sie wird in der Regel von Data Scientists und Analysten durchgeführt und ist die Grundlage für eine genaue und zuverlässige Datenanalyse.

Die Datenerfassung beginnt mit der Festlegung klarer Ziele und der Identifizierung relevanter Quellen. Die Daten werden dann erfasst, bereinigt und in einen einheitlichen Datensatz integriert. Datenspeichersysteme und laufende Qualitätskontrollen tragen dazu bei, dass die gesammelten Daten korrekt und zuverlässig sind.

Ohne eine ordnungsgemäße Datenerfassung laufen Organisationen Gefahr, ihre Analysen auf unvollständige, ungenaue oder irreführende Daten zu stützen, was zu verfälschten Erkenntnissen und Entscheidungen führt.

Zu den häufigsten Datenquellen gehören:

Social-Media-Interaktionen: Echtzeitdaten von Plattformen wie Twitter und Facebook können verwendet werden, um das Engagement für eine Marke zu verfolgen, die öffentliche Meinung einzuschätzen und die Verbraucherstimmung zu ermitteln.

Öffentliche Daten: Frei verfügbare Datensätze von Regierungen und Organisationen, wie Volkszählungsdaten und Wirtschaftsindikatoren, können dabei helfen, demografische Veränderungen, Marktsegmentierung und Finanzanalysen in einen Kontext zu setzen.

Offene Datensätze: Datensätze von akademischen Einrichtungen und Regierungen zu Themen wie Klimawandel und Geodaten werden häufig für Forschung und Politikgestaltung verwendet.

Transaktionsdaten: Daten aus Geschäftstransaktionen, wie z. B. Verkaufsunterlagen, Rechnungen und Zahlungsinformationen, können Unternehmen dabei helfen, ihre Leistung zu verfolgen, die Preisgestaltung zu optimieren und die Customer Experience zu verbessern.

Umfragen und Fragebögen: Qualitative oder quantitative Daten, die durch Kunden-Feedback oder Forschungsumfragen gesammelt wurden, können Erkenntnisse in Präferenzen, Meinungen und Trends geben.

Web-Analyse: Daten aus Website-Interaktionen, wie Seitenaufrufe und Klickraten, helfen Unternehmen, das Nutzerverhalten zu verstehen, Inhalte zu optimieren und die Nutzererfahrung zu verbessern.

IoT-Geräte: Daten von Internet-der-Dinge-Geräten (IoT) wie intelligenten Zählern und tragbaren Trackern können Echtzeitanalysen sowie vorausschauende Wartung unterstützen und Equipment-Ausfälle verhindern.

Datenverwaltung

Unternehmen verarbeiten riesige Datenmengen in verschiedenen Formaten, die über öffentliche und private Clouds verstreut sind, was zu Datenfragmentierung und Missmanagement führt und somit zu erheblichen Herausforderungen führt.

Laut IBM Data Differentiator haben 82 % der Unternehmen mit Daten-Silos zu kämpfen, die ihre Workflows stören, und 68 % der Daten bleiben unanalysiert, was ihr volles Potenzial einschränkt.

Datenverwaltung ist die Praxis der sicheren und effizienten Erfassung, Verarbeitung und Nutzung von Daten zur Verbesserung der Geschäftsergebnisse. Dabei werden kritische Herausforderungen wie die Verwaltung großer Datenmengen, die Überwindung von Datensilos und der Umgang mit inkonsistenten Datenformaten behandelt.

Datenverwaltungslösungen lassen sich in der Regel in die vorhandene Infrastruktur integrieren, um Data Scientists, Analysten und anderen Stakeholdern den Zugriff auf qualitativ hochwertige, nutzbare Daten zu ermöglichen. Diese Lösungen umfassen oft Data Lakes, Data Warehouses oder Data Lakehouses, kombiniert in einer einheitlichen Data Fabric.

Data Lakes sind kostengünstige Speicherumgebungen, die rohe, unstrukturierte Daten aufnehmen, die später verarbeitet und analysiert werden können.

Data Warehouses speichern strukturierte Daten aus verschiedenen Quellen, optimiert für Data-Mining- und Analyseaufgaben.

Data Lakehouses vereinen die besten Aspekte von Data Warehouses und Data Lakes und bieten eine einheitliche Lösung für die Verwaltung strukturierter und unstrukturierter Daten.

Diese Systeme helfen dabei, eine solide Datenverwaltungsgrundlage zu schaffen, indem sie hochwertige Daten in BI-Tools (Business Intelligence), Dashboards und KI-Modelle einspeisen, einschließlich maschinelles Lernen (ML) und generative KI.

Darüber hinaus verändert KI die Art und Weise, wie Unternehmen mit Daten umgehen. KI-Datenmanagement ist die Praxis der Nutzung von künstlicher Intelligenz (KI) und maschinellem Lernen im Datenverwaltungs-Lebenszyklus. Beispiele hierfür sind die Anwendung von KI zur Automatisierung oder Optimierung der Datenerfassung, Datenbereinigung, Datenanalyse, Datensicherheit und anderer Datenverwaltungsprozesse.

Data Scientists und Datenanalysten

Branchenübergreifend verlassen sich Unternehmen zunehmend auf Daten, um Entscheidungen zu treffen, Betriebsabläufe zu verbessern und die Customer Experience zu optimieren. Dadurch ist die Nachfrage nach qualifizierten Datenexperten stark gestiegen.

Zu den zwei wichtigsten Rollen im Bereich Data Science zählen die des Data Scientists und die des Datenanalysten.

Data Scientist: Data Scientists führen komplexe, grundlegende Datenaufgaben aus. Zum Beispiel erstellen sie Modelle und Algorithmen, um Erkenntnisse aus großen Datensätzen zu gewinnen, wobei sie häufig fortschrittliche Tools wie maschinelles Lernen und prädiktive Modellierung einsetzen.

Datenanalyst: Datenanalysten konzentrieren sich auf unmittelbare, praktische Aufgaben. Sie verwenden Statistiken, um Daten zu analysieren und spezifische Geschäftsfragen zu beantworten. Ihr Hauptziel ist es, nützliche Erkenntnisse zu gewinnen, die alltägliche Entscheidungen und Strategien unterstützen.

Beide Rollen umfassen die Datenerfassung, Datenmodellierung, die Analyse von Daten und die Sicherstellung einer hohen Datenqualität. Datenanalysten und Data Scientists könnten gleichermaßen verschiedene Methoden und Tools verwenden, um Daten zu verarbeiten und aufzubereiten, darunter Microsoft Excel, Python und Structured Query Language (SQL).

Sie können auch Datenvisualisierungstechniken wie Dashboards und Diagramme verwenden, um Trends, Korrelationen und Erkenntnisse in den Daten zu ermitteln, wenn auch auf unterschiedliche Weise.

Ein Data Scientist könnte beispielsweise ein Vorhersagemodell entwickeln, das maschinelles Lernen nutzt, um das zukünftige Kundenverhalten vorherzusagen. Dieses Modell könnte dem Unternehmen dabei helfen, Trends vorherzusehen, Marketingkampagnen zu personalisieren und fundierte langfristige strategische Entscheidungen zu treffen.

Zum Vergleich: Ein Datenanalyst könnte im selben Projekt ein Visualisierungstool verwenden, um ein Dashboard zu erstellen, das die Verhaltensmuster der Kunden im Laufe der Zeit anzeigt. Diese Möglichkeit, historische Verkaufstrends zusammen mit Engagement-Metriken darzustellen, könnte dem Team dabei helfen, aktuelle Marketingstrategien zu optimieren oder Produktangebote anzupassen, um den Gewinn zu steigern.

Datenschutz

Datenschutz ist die Praxis, sensible Informationen vor dem Verlust, Diebstahl und der Verfälschung von Daten zu schützen. Der Datenschutz wird immer wichtiger, da Unternehmen immer größere Mengen sensibler Daten in komplexen, verteilten Umgebungen verarbeiten.

Das wachsende Risiko von Cyberbedrohungen und strengere Datenschutzbestimmungen haben den Datenschutz auch für Unternehmen und Verbraucher zu einer Priorität gemacht. Laut einer aktuellen Studie sind 81 % der Amerikaner besorgt darüber, wie Unternehmen die über sie gesammelten Daten verwenden.¹

Auch aus geschäftlicher Sicht spricht vieles dafür, dem Datenschutz Priorität einzuräumen. Dem „Cost of Data Breach Report“ von IBM zufolge kostet eine Datenschutzverletzung ein Unternehmen durch entgangene Geschäfte, Systemausfallzeiten, Rufschädigung und Reaktionsmaßnahmen durchschnittlich 4,88 Mio. USD.

Mehr über Datenschutz erfahren

Datensicherheit und Datenschutz

Die Datensicherung hat zwei entscheidende Teilbereiche: Datensicherheit und Datenschutz. Beide spielen unterschiedliche, aber sich ergänzende Rollen beim Schutz und der Verwaltung von Daten.

Die Datensicherheit umfasst den Schutz digitaler Informationen vor unbefugtem Zugriff, Beschädigung oder Diebstahl. Sie betrifft verschiedene Aspekte der Informationssicherheit, darunter Physical Security, organisatorische Richtlinien und Zugriffskontrollen.

Der Datenschutz konzentriert sich auf Richtlinien, die den allgemeinen Grundsatz unterstützen, dass eine Person die Kontrolle über ihre personenbezogenen Daten haben sollte. Dazu gehört auch die Möglichkeit, zu entscheiden, wie Unternehmen diese Daten erfassen, speichern und verwenden.

Datenschwachstellen

Daten sind mit vielen Schwachstellen und potenziellen Cyberbedrohungen konfrontiert, insbesondere angesichts der Fortschritte der KI-Funktionen.

Zu den häufigsten Bedrohungen gehören:

Insider-Bedrohungen: Mitarbeiter oder Auftragnehmer mit autorisiertem Zugriff können erhebliche Risiken darstellen. Laut dem Bericht „Cost of Data Breach Report“ kosten Datenschutzverletzungen, die durch böswillige Insider verursacht werden, durchschnittlich 4,99 Mio. USD.

Social Engineering: Bedrohungsakteure nutzen häufig Social-Engineering-Angriffe wie Phishing, um menschliche Schwächen auszunutzen und Einzelpersonen zur Preisgabe sensibler Informationen zu verleiten. Generative KI-Tools können jetzt äußerst überzeugende Phishing-E-Mails erstellen und so die Erfolgsquote solcher Angriffe erhöhen.

Ransomware: Cyberkriminelle verwenden Ransomware, um die Daten eines Unternehmens zu verschlüsseln und Lösegeld im Austausch für den Entschlüsselungscode zu verlangen. Gesundheitssysteme, Finanzinstitute und staatliche Datenbehörden sind besonders anfällig für diese Angriffe.

Cloud-Sicherheit: Durch die weit verbreitete Nutzung von Cloud-Services können Fehlkonfigurationen, unsichere APIs und eine unzureichende Zugriffskontrolle zum Verlust öffentlicher Daten führen. Laut dem Bericht „Cost of a Data Breach Report“ sind Datenlecks in öffentlichen Clouds mit durchschnittlich 5,17 Millionen USD am teuersten.

Datenschutzlösungen

Unternehmen setzen verschiedene Datenschutztechnologien ein, um sich gegen Bedrohungsakteure zu verteidigen und die Integrität, Vertraulichkeit und Verfügbarkeit von Daten zu gewährleisten.

Zu den bekanntesten Lösungen gehören:

Verschlüsselung nutzt symmetrische Verschlüsselung oder asymmetrische Verschlüsselung, um Daten während der Speicherung und Übertragung zu schützen und Angreifer daran zu hindern, diese zu lesen oder zu missbrauchen. Ende-zu-Ende-Verschlüsselung (E2EE) verschlüsselt Daten gezielt vor der Übertragung an einen anderen Endpunkt und hält sie während des gesamten Übertragungswegs sicher.

Daten-Backups erstellen und speichern regelmäßig Kopien kritischer Daten, sodass diese bei Verlust oder Beschädigung schnell wiederhergestellt werden können und Ausfallzeiten minimiert werden.

Firewalls überwachen und steuern den Netzwerkverkehr und fungieren als erste Verteidigungslinie, um unbefugten Zugriff zu blockieren.

Authentifizierung und Autorisierung überprüfen Benutzeridentitäten und steuern den Zugriff auf sensible Informationen. Die Multi-Faktor-Authentifizierung (MFA) bietet eine zusätzliche Sicherheitsebene, bei der Benutzer mehrere Formen der Verifizierung bereitstellen müssen.

Identity und Access Management (IAM) regelt, wie Benutzer auf digitale Ressourcen zugreifen und was sie mit diesen Ressourcen tun können, um Insider-Bedrohungen zu reduzieren und unbefugten Zugriff zu verhindern.

Antivirus- und Anti-Malware-Tools erkennen, verhindern und entfernen schädliche Software wie Viren, Spyware und Ransomware, die Daten gefährden könnten.

Data Loss Prevention (DLP) -Tools überwachen die Benutzeraktivität und melden verdächtiges Verhalten, um unbefugten Zugriff, unbefugte Übertragung oder unbefugte Offenlegung sensibler Informationen zu verhindern.

Die Rolle von Daten in der künstlichen Intelligenz (KI)

72 % der erfolgreichsten CEOs stimmen zu, dass ein Wettbewerbsvorteil davon abhängt, wer über die fortschrittlichste generative KI verfügt. Doch eine hochmoderne KI ist nur ein Teil der Gleichung. Ohne ordnungsgemäß verwaltete und zugängliche Daten können selbst die leistungsstärksten KI-Tools ihr volles Potenzial nicht entfalten.

Daten sind die Grundlage für die Weiterentwicklung und den Erfolg von künstlicher Intelligenz. KI-Systeme, insbesondere Modelle des maschinellen Lernens, sind auf Daten angewiesen, um zu lernen, sich anzupassen und branchenübergreifend Mehrwert zu schaffen.

Datenqualität und Verzerrung

Modelle für maschinelles Lernen werden anhand umfangreicher Datensätze trainiert und nutzen diese Daten, um Muster zu erkennen und Entscheidungen zu treffen.

Die Vielfalt und Datenqualität der Trainingsdaten eines KI-Modells wirken sich direkt auf seine Leistung aus. Wenn die Daten verzerrt oder unvollständig sind, können die KI-Outputs ungenau und unzuverlässig werden.

Im Gesundheitswesen beispielsweise könnten KI-Modelle, die auf verzerrten Datensätzen trainiert wurden, bestimmte ethnische Gruppen unterrepräsentieren, was zu schlechten Diagnoseergebnissen führt. Ebenso kann eine schlechte Datenqualität im Rahmen von Einstellungsverfahren zu fehlerhaften Vorhersagen führen, wodurch möglicherweise Geschlechter- oder Rassenstereotypen verstärkt werden und KI-Modelle entstehen, die bestimmte demografische Gruppen gegenüber anderen bevorzugen.

Kurz gesagt: KI ist nur so gut wie die Daten, die sie verarbeitet.

Die Sicherstellung einer qualitativ hochwertigen Eingabe durch umfassende Datenvalidierung und -bereinigung ist für den Aufbau ethischer, zuverlässiger KI-Systeme, die eine perpetuierende Verzerrung vermeiden, unerlässlich.

Generative KI und Datenschwachstellen

Während generative KI wertvolle Inhalte erstellen kann, bringt sie auch neue Herausforderungen mit sich. KI-Modelle können falsche oder irreführende Daten generieren, die Angreifer ausnutzen können, um Systeme oder Einzelpersonen zu täuschen.

Die Authentizität und Sicherheit von Daten ist ein wachsendes Problem. Einem kürzlich veröffentlichten Bericht zufolge stellen 75 % der leitenden Cybersicherheitsexperten eine Zunahme von Cyberangriffen fest, wobei 85 % diese Zunahme auf Kriminelle zurückführen, die generative KI einsetzen.²

Um diesen Bedrohungen entgegenzuwirken, setzen viele Unternehmen auf KI-Sicherheit und nutzen KI selbst, um die Erkennung, Prävention und Reaktion zu automatisieren und den Datenschutz zu verbessern.

Autoren

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

3D-Rendering einer Spirale aus mehreren nebeneinander angeordneten Symbolen, darunter eine Kamera, ein Lautstärkeregler und ein Klemmbrett

Lesen Sie den Leitfaden für Data Leader, um zu erfahren, wie Sie die Daten Ihres Unternehmens KI-fähig machen können.

Ressourcen

3D-Rendering mehrerer nebeneinander angeordneter Symbole, darunter ein Mikrofon und eine Kamera

KI-Agenten arbeiten mit Daten – sind Ihre bereit dafür?

Ihre Daten sind Ihr Wettbewerbsvorteil. Erfahren Sie in diesem kurzen Webinar, wie Sie die KI sicher nutzen und einen messbaren ROI erzielen können.

Infos zu Datenverwaltung

Techsplainers von IBM erklärt die Grundlagen von Daten für KI, von Schlüsselkonzepten bis hin zu realen Anwendungsfällen. Klare, kurze Folgen helfen Ihnen, die Grundlagen schnell zu erlernen.

3D-Rendering von mehreren aneinandergereihten Symbolen wie einem Lautstärkeregler und einem Klemmbrett

Daten zur Skalierung Ihrer KI vereinheitlichen und zugänglich machen

Erfahren Sie, warum der Weg zu KI-fähigen Daten oft mit dem effektiven Zugriff auf strukturierte und unstrukturierte Daten beginnt und welche Herausforderungen Datenverantwortlichen im Wege stehen können.

Juristischer Aufwand wird zu strategischer Erkenntnis

Erfahren Sie, wie ein KI-gestützter Rechtsagent die Entscheidungsfindung beschleunigt, manuelle Arbeit reduziert und die Compliance verbessert.

Zwei Männer, die in einem Podcast miteinander sprechen

AI Akademy: Aufbau einer Datenstrategie für Unternehmens-KI

In dieser Folge erklärt Cathy Reese, dass Unternehmen heute eine Datenstrategie benötigen, die für fortschrittliche KI bereit ist, was bedeutet, dass sie ihre qualitativ hochwertigsten Datenressourcen nutzen müssen.

3D-Darstellung mehrerer nebeneinander angeordneter Symbole, wie z. B. einer Kamera und Papierfliegern

Das hybride, offene Data Lakehouse für KI

Vereinfachen Sie den Datenzugriff und automatisieren Sie die Data Governance. Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.

Cost of a Data Breach Report 2025

Die Kosten für Datenschutzverletzungen haben einen neuen Höchststand erreicht. Erhalten Sie aktuelle Erkenntnisse hinsichtlich Cybersicherheit und deren finanziellen Auswirkungen auf Unternehmen.

3D-Rendering von zwei Reihen mit verschiedenen Symbolen, darunter eine Kamera, ein Lautstärkeregler und eine Zwischenablage

Der Leitfaden für Data Leader zu KI-fähigen Daten

Erfahren Sie, welche umsetzbaren Schritte Datenverantwortliche unternehmen können, um Datenherausforderungen zu überwinden, die Grundlage für eine vertrauenswürdige Datenbasis zu schaffen und die Daten ihres Unternehmens auf die KI vorzubereiten.

3D-Rendering mehrerer nebeneinander angeordneter Symbole, darunter eine Kamera, ein Lautstärkeregler und eine Zwischenablage

How the C-suite is turning information into impact

Erkunden Sie in diesem branchenübergreifenden Bericht für Datenverantwortliche die Erkenntnisse von 1.700 CDOs.

Weiterführende Lösungen

IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden

IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken

Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken

Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.