Was sind Daten?

3D-Rendering verschiedener Formen

Autoren

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Was sind Daten?

Daten sind eine Sammlung von Fakten, Zahlen, Wörtern, Beobachtungen oder anderen nützlichen Informationen. Durch Datenverarbeitung und -analyse verwandeln Unternehmen Rohdaten in wertvolle Erkenntnisse, die die Entscheidungsfindung verbessern und zu besseren Geschäftsergebnissen führen.

Unternehmen sammeln Daten aus verschiedenen Quellen und in verschiedenen Formaten, darunter nicht-numerische qualitative Daten (wie Kundenbewertungen) und numerische quantitative Daten (wie Verkaufszahlen). Weitere Beispiele für Daten sind öffentliche Daten wie Regierungsstatistiken und Volkszählungsdaten sowie private Daten wie Kaufhistorien von Kunden oder die Gesundheitsakten einer Person.

In den letzten zehn Jahren hat Big Data – große, komplexe Datensätze aus Quellen wie sozialen Medien, E-Commerce und Finanztransaktionen – die digitale Transformation in allen Branchen vorangetrieben. Tatsächlich hat Big Data aufgrund seiner Rolle als Motor für Unternehmenswachstum und Innovation den Spitznamen „das neue Öl“ erhalten.

In den letzten Jahren hat der Aufstieg der künstlichen Intelligenz (KI) den Fokus auf Daten weiter verstärkt. Unternehmen benötigen Daten, um Modelle für Machine Learning (ML) zu trainieren und Vorhersagealgorithmen zu verfeinern. Je mehr hochwertige Daten diese KI-Systeme analysieren, desto genauer und effektiver werden sie.

Angesichts der zunehmenden Menge, Komplexität und Bedeutung von Daten benötigen Unternehmen effektive Data Management Prozesse, um Informationen zu organisieren und für die Datenanalyse zugänglich zu machen.

Gleichzeitig haben die zunehmenden Bedenken hinsichtlich der Datensicherheit und des Datenschutzes – sowohl von Seiten der Nutzer als auch der Regulierungsbehörden – den Datenschutz und die Einhaltung von Gesetzen wie der Datenschutz-Grundverordnung (DSGVO) und dem California Consumer Privacy Act (CCPA).

Typen von Daten

Daten liegen in vielen verschiedenen Formen vor, die jeweils durch ihre einzigartigen Merkmale, Quellen und Formate definiert sind. Das Verständnis dieser Unterschiede kann eine effektivere Organisation und Datenanalyse ermöglichen, da verschiedene Datentypen unterschiedliche Anwendungsfälle unterstützen.

Außerdem kann ein einzelner Datenpunkt oder Datensatz unter mehrere Kategorien fallen. Zum Beispiel strukturiert und quantitativ, unstrukturiert, qualitativ und so weiter.

Zu den häufigsten Datentypen gehören:

  • Quantitative Daten
  • Qualitative Daten

  • Strukturierte Daten

  • Unstrukturierte Daten

  • Halbstrukturierte Daten

  • Metadaten

  • Big Data

Quantitative Daten

Quantitative Daten bestehen aus Werten, die numerisch gemessen werden können. Beispiele für quantitative Daten sind diskrete Datenpunkte (wie die Anzahl der verkauften Produkte) oder kontinuierliche Datenpunkte (wie Temperatur- oder Umsatzzahlen).

Quantitative Daten sind oft strukturiert, sodass sie sich leicht mit mathematischen Werkzeugen und Algorithmen analysieren lassen.

Zu den häufigsten Anwendungsfällen quantitativer Daten gehören Trendprognosen, statistische Analysen, Budgetierung, Mustererkennung und Leistungsmessung.

Qualitative Daten

Qualitative Daten sind beschreibend und nicht numerisch und erfassen Merkmale, Konzepte oder Erfahrungen, die nicht durch Zahlen messbar sind. Beispiele hierfür sind Kundenfeedback, Produktbewertungen und Kommentare in den sozialen Medien.

Qualitative Daten können strukturiert (wie codierte Umfrageantworten) oder unstrukturiert (wie Freitextantworten oder Interviewtranskripte) sein.

Zu den häufigsten Anwendungsfällen für qualitative Daten gehören das Verständnis von Kundenverhalten, Markttrends und Nutzererfahrungen.

Strukturierte Daten

Strukturierte Daten sind in einem klaren, definierten Format organisiert und werden oft in relationalen Datenbanken oder Tabellen gespeichert. Sie kann sowohl aus quantitativen (z. B. Verkaufszahlen) als auch aus qualitativen Daten (z. B. kategorische Bezeichnungen wie „Ja“ oder „Nein“) bestehen.

Beispiele für strukturierte Daten sind Kundendatensätze und Finanzberichte, bei denen die Daten sauber in Zeilen und Spalten mit vordefinierten Feldern passen.

Die hochgradig organisierte Natur strukturierter Daten ermöglicht eine schnelle Abfrage und Datenanalyse und ist daher für Business-Intelligence-Systeme und Berichtsprozesse nützlich.

Unstrukturierte Daten

Unstrukturierten Daten fehlt ein streng definiertes Format. Sie liegt oft in komplexen Formen wie Textdokumenten, Bildern und Videos vor. Unstrukturierte Daten können sowohl qualitative Informationen (z. B. Kundenkommentare) als auch quantitative Elemente (z. B. in Text eingebettete Zahlenwerte) enthalten.

Beispiele für unstrukturierte Daten sind E-Mails, Inhalte aus sozialen Medien und Multimedia-Dateien.

Unstrukturierte Daten lassen sich nicht ohne Weiteres in herkömmliche relationale Datenbanken einfügen, und Organisationen verwenden häufig Techniken wie Natural Language Processing (NLP) und maschinelles Lernen, um die Analyse unstrukturierter Daten zu optimieren.

Unstrukturierte Daten spielen oft eine Schlüsselrolle bei der Stimmungsanalyse, der Erkennung komplexer Muster und anderen fortgeschrittenen Analyseprojekten.

Halbstrukturierte Daten

Semi-strukturierte Daten kombinieren Elemente strukturierter und unstrukturierter Daten. Es folgt keinem starren Format, kann aber Tags oder Markierungen enthalten, die die Organisation und Analyse erleichtern. Beispiele für semi-strukturierte Daten sind XML-Dateien und JSON-Objekte.

Halbstrukturierte Daten werden häufig in Szenarien wie Web-Scraping- und Datenintegrations-Projekten verwendet, da sie Flexibilität bieten und gleichzeitig eine gewisse Struktur für die Suche und Analyse beibehalten.

Metadaten

Metadaten sind Daten über Daten. Mit anderen Worten handelt es sich um Informationen über die Attribute eines Datenpunkts oder Datensatzes, wie z. B. Dateinamen, Autoren, Erstellungsdaten oder Datentypen.

Metadaten verbessern die Organisation, Durchsuchbarkeit und Verwaltung von Daten. Sie sind für Systeme wie Datenbanken, digitale Bibliotheken und Content-Management-Plattformen von entscheidender Bedeutung, da sie den Benutzern das Sortieren und Auffinden der benötigten Daten erleichtern.

Big Data

Big Data bezieht sich auf riesige, komplexe Datensätze, die von traditionellen Systemen nicht verarbeitet werden können. Sie umfasst sowohl strukturierte als auch unstrukturierte Daten aus Quellen wie Sensoren, sozialen Medien und Transaktionen.

Big-Data-Analysen helfen Unternehmen, diese großen Datensätze zu verarbeiten und zu analysieren, um systematisch wertvolle Erkenntnisse zu gewinnen. Dafür sind oft fortschrittliche Tools wie maschinelles Lernen erforderlich.

Zu den gängigen Anwendungsfällen für Big Data gehören die Analyse des Kundenverhaltens, die Betrugserkennung und die vorausschauende Wartung.

Warum Daten wichtig sind

Daten ermöglichen es Unternehmen, Rohinformationen in verwertbare Erkenntnisse umzuwandeln, um das Kundenverhalten vorherzusagen, Lieferketten zu optimieren und Innovationen voranzutreiben.

Der Begriff „Daten“ stammt vom Plural von „Datum“, einem lateinischen Wort, das „etwas Gegebenes“ bedeutet: eine Definition, die auch heute noch relevant ist. Täglich stellen Millionen von Menschen Unternehmen Daten zur Verfügung, beispielsweise durch Interaktionen wie Impressionen, Klicks, Transaktionen, Sensormesswerte oder auch einfach nur durch das Surfen im Internet. 

Unternehmen aus verschiedenen Branchen können diesen konstanten Informationsfluss dann nutzen, um Wachstum und Innovation voranzutreiben. E-Commerce-Händler beispielsweise nutzen riesige Datensätze und Datenanalysen, um die Nachfrage vorherzusagen und sicherzustellen, dass sie die richtigen Produkte zum richtigen Zeitpunkt auf Lager haben.

In ähnlicher Weise verwenden datengesteuerte Streaming-Plattformen Algorithmen für maschinelles Lernen nicht nur, um Inhalte zu empfehlen, sondern auch, um sie zu optimieren. Dabei wird analysiert, welche Szenen bei den Zuschauern am besten ankommen, um zukünftige Produktionsentscheidungen zu unterstützen.

Daten werden auch im Zeitalter der künstlichen Intelligenz (KI) immer wichtiger, da große, hochwertige Datensätze für das Training von Modellen für maschinelles Lernen erforderlich sind (weitere Informationen finden Sie unter „Die Rolle von Daten in der künstlichen Intelligenz (KI)“).

Darüber hinaus ist die Fähigkeit von KI zur Echtzeit-Datenverarbeitung in Bereichen wie der Cybersicherheit, wo eine schnelle Datenanalyse Bedrohungen identifiziert, bevor sie eskalieren, dem Finanzhandel, wo Entscheidungen in Sekundenbruchteilen den Gewinn beeinflussen, und dem Edge Computing, wo die Verarbeitung von Daten näher an der Quelle zu schnelleren Erkenntnissen, einer schnelleren Entscheidungsfindung und einer besseren Bandbreite führt, von entscheidender Bedeutung.

Schwarze Frau arbeitet am Laptop

Bleiben Sie über die neuesten Tech-News auf dem Laufenden.

Wöchentliche Erkenntnisse, Forschungsergebnisse und Expertenmeinungen zu KI, Sicherheit, Cloud und mehr im Think Newsletter.

Wie werden Daten verwendet?

Unternehmen aus verschiedenen Branchen nutzen Daten für unterschiedliche Zwecke, darunter die Verbesserung der Entscheidungsfindung, die Optimierung von Abläufen und die Förderung von Innovationen.

Die üblichen Möglichkeiten, wie Unternehmen Daten in ihren Betriebsabläufen verwendet haben, umfassen:

  • Vorhersageanalysen

  • Generative KI

  • Innovationen im Gesundheitswesen

  • Sozialwissenschaftliche Forschung

  • Cybersicherheit und Risikomanagement

  • betrieblichen Effizienz

  • Customer Experience

  • Regierungsinitiativen

  • Business Intelligence (BI)

Predictive Analytics

Predictive Analytics sind ein Teilgebiet der fortgeschrittenen Analyse, bei dem zukünftige Trends und Ergebnisse anhand von historischen Daten in Kombination mit statistischer Modellierung, Data Mining und Machine Learning vorhergesagt werden.

E-Commerce-Unternehmen nutzen häufig vorausschauende Analysen, um das Kaufverhalten von Kunden auf der Grundlage früherer Transaktionen vorherzusagen. In der Fertigungs- und Transportbranche ermöglicht die vorausschauende Analyse eine vorausschauende Wartung, indem Maschinendaten in Echtzeit analysiert werden, um vorherzusagen, wann Geräte wahrscheinlich ausfallen werden, und eine proaktive Wartung zu empfehlen.

Generative KI

Generative KI, manchmal auch als Gen AI bezeichnet, ist künstliche Intelligenz (KI), die als Antwort auf den Prompt oder die Anfrage eines Benutzers Originalinhalte wie Text, Bilder, Video, Audio oder Softwarecode generiert.

Generative KI basiert auf ausgeklügelten Modellen des maschinellen Lernens, die als Deep-Learning-Modelle bezeichnet werden. Diese Modelle werden anhand umfangreicher Datensätze trainiert, wodurch sie beispielsweise in der Lage sind, die Anfragen der Benutzer zu verstehen, personalisierte Marketinginhalte zu generieren und Code zu schreiben.

Innovationen im Gesundheitswesen

Datenanalysen können Gesundheitsdienstleistern dabei helfen, die Patientenversorgung zu verbessern, Krankheitsausbrüche vorherzusagen und Behandlungsprotokolle zu optimieren.

So bietet beispielsweise die Überwachung von Patienten anhand von Zeitreihendaten, wie z. B. die Verfolgung der Vitalwerte von Patienten im Zeitverlauf, Echtzeit-Erkenntnisse in den Zustand der Patienten. Dies wiederum ermöglicht schnellere Eingriffe und eine personalisierte Behandlung.

Sozialwissenschaftliche Forschung

Sozialwissenschaftler analysieren häufig quantitative und qualitative Daten aus Umfragen, Zensusberichten und sozialen Medien. Die Untersuchung dieser Datensätze ermöglicht es ihnen, Verhaltensweisen, Trends und politische Auswirkungen zu untersuchen.

Zum Beispiel könnten Forscher Volkszählungsdaten verwenden, um Bevölkerungsveränderungen zu verfolgen, Umfrageantworten, um die öffentliche Meinung zu messen, und Daten aus sozialen Medien, um neue Trends zu analysieren.

Cybersicherheit und Risikomanagement

Da Cyberangriffe und Data Breaches immer häufiger auftreten, setzen Unternehmen zunehmend auf Datenanalysen, um Bedrohungen schneller zu erkennen und darauf zu reagieren, Schäden zu minimieren und Ausfallzeiten zu reduzieren.

Zum Beispiel können SIEM-Systeme (Security Information and Event Management) helfen, Anomalien in Echtzeit zu erkennen und darauf zu reagieren, indem sie Sicherheitswarnungen aus dem gesamten Netzwerk zusammenfassen und analysieren.

Betriebliche Effizienz

Algorithmen für Machine Learning, die auf riesigen Datensätzen trainiert werden, können Unternehmen dabei helfen, ihre betriebliche Effizienz zu steigern, indem sie die Logistik optimieren, die Nachfrage vorhersagen, die Planung verbessern und Workflows automatisieren.

E-Commerce-Unternehmen sammeln und analysieren beispielsweise häufig Echtzeit-Verkaufsdaten, um das Bestandsmanagement zu optimieren und die Wahrscheinlichkeit von Fehlbeständen oder Überbeständen zu verringern.

Customer Experience

Daten sind das Rückgrat personalisierter Customer Experiences, insbesondere im Marketing, wo Unternehmen mithilfe von Datenanalysen Inhalte und Anzeigen auf verschiedene Benutzer zuschneiden können.

Streaming-Services beispielsweise verlassen sich auf Algorithmen für maschinelles Lernen, um Sehgewohnheiten zu analysieren und Inhalte zu empfehlen.

Regierungsinitiativen

Regierungen auf der ganzen Welt nutzen häufig Open-Data-Richtlinien, um wertvolle Datensätze öffentlich zugänglich zu machen und Unternehmen und Organisationen dazu zu ermutigen, diese Ressourcen für Forschung und Innovation zu nutzen.

Zum Beispiel bietet die Plattform Data.gov der US-Regierung beispielsweise Zugang zu verschiedenen Datensätzen aus den Bereichen Gesundheitswesen, Bildung und Verkehr. Dieser Zugriff fördert die Transparenz und ermöglicht es Unternehmen aus verschiedenen Branchen, datengestützte Lösungen auf der Grundlage öffentlich zugänglicher Informationen zu entwickeln.

Business Intelligence (BI)

Business Intelligence (BI) ist eine Reihe von technologischen Prozessen zur Erfassung, Verwaltung und Analyse von Daten, die Rohdaten in Erkenntnisse umwandeln, die als Grundlage für Geschäftsentscheidungen dienen können.

Business Analytics ergänzt BI, indem sie Unternehmen dabei unterstützt, Daten anhand von Grafiken, Dashboards und Berichten zu interpretieren und zu visualisieren, sodass Trends leichter erkannt und fundierte Entscheidungen getroffen werden können.

Datenerfassung  

Datenerfassung ist der systematische Prozess der Sammlung von Daten aus verschiedenen Quellen, wobei gleichzeitig deren Qualität und Integrität sichergestellt wird. Sie wird in der Regel von Data Scientists und Analysten durchgeführt und ist die Grundlage für eine genaue und zuverlässige Datenanalyse.

Die Datenerfassung beginnt mit der Festlegung klarer Ziele und der Identifizierung relevanter Quellen. Die Daten werden dann erfasst, bereinigt und in einen einheitlichen Datensatz integriert. Datenspeichersysteme und laufende Qualitätskontrollen tragen dazu bei, dass die gesammelten Daten korrekt und zuverlässig sind.

Ohne eine ordnungsgemäße Datenerfassung laufen Organisationen Gefahr, ihre Analysen auf unvollständige, ungenaue oder irreführende Daten zu stützen, was zu verfälschten Erkenntnissen und Entscheidungen führt.

Zu den häufigsten Datenquellen gehören:

  • Social-Media-Interaktionen: Echtzeitdaten von Plattformen wie Twitter und Facebook können verwendet werden, um das Engagement für eine Marke zu verfolgen, die öffentliche Meinung einzuschätzen und die Verbraucherstimmung zu ermitteln.
  • Öffentliche Daten: Frei verfügbare Datensätze von Regierungen und Organisationen, wie Volkszählungsdaten und Wirtschaftsindikatoren, können dabei helfen, demografische Veränderungen, Marktsegmentierung und Finanzanalysen in einen Kontext zu setzen.
  • Offene Datensätze: Datensätze von akademischen Einrichtungen und Regierungen zu Themen wie Klimawandel und Geodaten werden häufig für Forschung und Politikgestaltung verwendet.
  • Transaktionsdaten: Daten aus Geschäftstransaktionen, wie z. B. Verkaufsunterlagen, Rechnungen und Zahlungsinformationen, können Unternehmen dabei helfen, ihre Leistung zu verfolgen, die Preisgestaltung zu optimieren und die Customer Experience zu verbessern.
  • Umfragen und Fragebögen: Qualitative oder quantitative Daten, die durch Kunden-Feedback oder Forschungsumfragen gesammelt wurden, können Erkenntnisse in Präferenzen, Meinungen und Trends geben.
  • Web-Analyse: Daten aus Website-Interaktionen, wie Seitenaufrufe und Klickraten, helfen Unternehmen, das Nutzerverhalten zu verstehen, Inhalte zu optimieren und die Nutzererfahrung zu verbessern.
  • IoT-Geräte: Daten von Internet der Dinge (IoT)-Geräten wie intelligenten Zählern und tragbaren Trackern können Echtzeitanalysen und vorausschauende Wartung unterstützen und Ausfallzeiten von Geräten verhindern.

Datenmanagement

Unternehmen verarbeiten riesige Datenmengen in verschiedenen Formaten, die über öffentliche und private Clouds verstreut sind, was zu Datenfragmentierung und Missmanagement führt und somit zu erheblichen Herausforderungen führt.

Laut IBM Data Differentiator haben 82 % der Unternehmen mit Daten-Silos zu kämpfen, die ihre Workflows stören, und 68 % der Daten bleiben unanalysiert, was ihr volles Potenzial einschränkt.

Datenverwaltung ist die Praxis der sicheren und effizienten Erfassung, Verarbeitung und Nutzung von Daten zur Verbesserung der Geschäftsergebnisse. Dabei werden kritische Herausforderungen wie die Verwaltung großer Datenmengen, die Überwindung von Datensilos und der Umgang mit inkonsistenten Datenformaten behandelt.

Datenverwaltungslösungen lassen sich in der Regel in die vorhandene Infrastruktur integrieren, um Data Scientists, Analysten und anderen Stakeholdern den Zugriff auf qualitativ hochwertige, nutzbare Daten zu ermöglichen. Diese Lösungen umfassen oft Data Lakes, Data Warehouses oder Data Lakehouses, kombiniert in einer einheitlichen Datenstruktur

  • Data Lake sind kostengünstige Speicherumgebungen, in denen unstrukturierte Daten gespeichert sind, die später verarbeitet und analysiert werden können.  
  • Data Warehouses speichern strukturierte Daten aus verschiedenen Quellen, optimiert für Data-Mining- und Analyseaufgaben.  
  • Data Lakehouses vereinen die besten Aspekte von Data Warehouses und Data Lakes und bieten eine einheitliche Lösung für die Verwaltung strukturierter und unstrukturierter Daten.

Diese Systeme helfen dabei, eine solide Datenverwaltungsgrundlage zu schaffen, indem sie hochwertige Daten in BI-Tools (Business Intelligence), Dashboards und KI-Modelle einspeisen, einschließlich maschinelles Lernen (ML) und generative KI.

Darüber hinaus verändert KI die Art und Weise, wie Organisationen mit Daten umgehen. KI-Datenmanagement ist die Praxis der Nutzung von künstlicher Intelligenz (KI) und maschinellem Lernen im Datenverwaltungs-Lebenszyklus. Beispiele hierfür sind die Anwendung von KI zur Automatisierung oder Optimierung der Datenerfassung, Datenbereinigung, Datenanalyse, Datensicherheit und anderer Datenverwaltungsprozesse.

Data Scientists und Datenanalysten

Branchenübergreifend verlassen sich Unternehmen zunehmend auf Daten, um Entscheidungen zu treffen, Betriebsabläufe zu verbessern und die Customer Experience zu optimieren. Dadurch ist die Nachfrage nach qualifizierten Datenexperten stark gestiegen.

Zwei der wichtigsten Rollen im Bereich Data Science sind Data Scientists und Datenanalysten.

  • Data Scientist: Data Scientists führen komplexe, grundlegende Datenaufgaben aus. Zum Beispiel erstellen sie Modelle und Algorithmen, um Erkenntnisse aus großen Datensätzen zu gewinnen, wobei sie häufig fortschrittliche Tools wie maschinelles Lernen und prädiktive Modellierung einsetzen.
  • Datenanalyst: Datenanalysten konzentrieren sich auf unmittelbarere, praktische Aufgaben. Sie verwenden Statistiken, um Daten zu analysieren und spezifische Geschäftsfragen zu beantworten. Ihr Hauptziel ist es, nützliche Erkenntnisse zu gewinnen, die alltägliche Entscheidungen und Strategien unterstützen.

Beide Rollen umfassen die Datenerfassung, Datenmodellierung, die Analyse von Daten und die Sicherstellung einer hohen Datenqualität. Datenanalysten und Data Scientists könnten gleichermaßen verschiedene Methoden und Tools verwenden, um Daten zu verarbeiten und aufzubereiten, darunter Microsoft Excel, Python und Structured Query Language (SQL).

Sie können auch Datenvisualisierungstechniken wie Dashboards und Diagramme verwenden, um Trends, Korrelationen und Erkenntnisse in den Daten zu ermitteln, wenn auch auf unterschiedliche Weise.

Ein Data Scientist könnte beispielsweise ein Vorhersagemodell entwickeln, das maschinelles Lernen nutzt, um das zukünftige Kundenverhalten vorherzusagen. Dieses Modell könnte dem Unternehmen dabei helfen, Trends vorherzusehen, Marketingkampagnen zu personalisieren und fundierte langfristige strategische Entscheidungen zu treffen. 

Zum Vergleich: Ein Datenanalyst könnte im selben Projekt ein Visualisierungstool verwenden, um ein Dashboard zu erstellen, das die Verhaltensmuster der Kunden im Laufe der Zeit anzeigt. Diese Möglichkeit, historische Verkaufstrends zusammen mit Engagement-Metriken darzustellen, könnte dem Team dabei helfen, aktuelle Marketingstrategien zu optimieren oder Produktangebote anzupassen, um den Gewinn zu steigern.

Datenschutz

Datenschutz ist die Praxis, sensible Informationen vor dem Verlust, Diebstahl und der Verfälschung von Daten zu schützen. Der Datenschutz wird immer wichtiger, da Unternehmen immer größere Mengen sensibler Daten in komplexen, verteilten Umgebungen verarbeiten.

Das wachsende Risiko von Cyberbedrohungen und strengere Datenschutzbestimmungen haben auch den Datenschutz zu einer Priorität für Unternehmen und Verbraucher gemacht. Laut einer aktuellen Studie sind 81 % der Amerikaner besorgt darüber, wie Unternehmen die über sie gesammelten Daten verwenden.1

Auch aus geschäftlicher Sicht spricht vieles dafür, dem Datenschutz Priorität einzuräumen. Dem Cost of a Data Breach Report von IBM zufolge kostet eine Datenschutzverletzung ein Unternehmen durch entgangene Geschäfte, Systemausfallzeiten, Rufschädigung und Reaktionsmaßnahmen durchschnittlich 4,88 Mio. USD. 

Datensicherheit und Datenschutz

Die Datensicherung hat zwei entscheidende Teilbereiche: Datensicherheit und Datenschutz. Beide spielen unterschiedliche, aber sich ergänzende Rollen beim Schutz und der Verwaltung von Daten.

Die Datensicherheit beinhaltet den Schutz digitaler Informationen vor unbefugtem Zugriff, Beschädigung oder Diebstahl. Sie umfasst verschiedene Aspekte der Informationssicherheit, darunter Physical Security, organisatorische Richtlinien und Zugriffskontrollen.

Der Datenschutz konzentriert sich auf Richtlinien, die den allgemeinen Grundsatz unterstützen, dass eine Person die Kontrolle über ihre persönlichen Daten haben sollte, einschließlich der Möglichkeit zu entscheiden, wie Unternehmen ihre Daten erfassen, speichern und verwenden.

Datenschwachstellen

Daten sind mit vielen Schwachstellen und potenziellen Cyberbedrohungen konfrontiert, insbesondere angesichts der Fortschritte der KI-Funktionen.

Zu den häufigsten Bedrohungen gehören:

  • Insider-Bedrohungen: Mitarbeiter oder Auftragnehmer mit autorisiertem Zugriff können erhebliche Risiken darstellen. Laut dem Bericht „Cost of a Data Breach Report“ kosten Datenschutzverletzungen, die von böswilligen Insidern verursacht werden, durchschnittlich 4,99 Mio. USD.
  • Social Engineering: Bedrohungsakteure nutzen häufig Social-Engineering-Angriffe wie Phishing, um menschliche Schwächen auszunutzen und Einzelpersonen zur Preisgabe sensibler Informationen zu verleiten. Generative KI-Tools können jetzt äußerst überzeugende Phishing-E-Mails erstellen und so die Erfolgsquote solcher Angriffe erhöhen.
  • Ransomware: Cyberkriminelle verwenden Ransomware, um die Daten eines Unternehmens zu verschlüsseln und Lösegeld im Austausch für den Entschlüsselungscode zu verlangen. Gesundheitssysteme, Finanzinstitute und staatliche Datenbehörden sind besonders anfällig für diese Angriffe.
  • Cloud-Sicherheit: Durch die weit verbreitete Nutzung von Cloud-Services können Fehlkonfigurationen, unsichere APIs und eine unzureichende Zugriffskontrolle zu einem Verlust öffentlicher Daten führen. Laut dem Bericht „Cost of a Data Breach Report“ sind Datenlecks in öffentlichen Clouds mit durchschnittlich 5,17 Mio. USD am teuersten.

Datenschutzlösungen

Unternehmen setzen verschiedene Datenschutztechnologien ein, um sich gegen Bedrohungsakteure zu verteidigen und die Integrität, Vertraulichkeit und Verfügbarkeit von Daten zu gewährleisten.

Zu den bekanntesten Lösungen gehören:

  • Daten-Backups erstellen und speichern regelmäßig Kopien kritischer Daten, sodass diese bei Verlust oder Beschädigung schnell wiederhergestellt werden können und Ausfallzeiten minimiert werden.
  • Firewalls überwachen und steuern den Netzwerkverkehr und fungieren als erste Verteidigungslinie, um unbefugten Zugriff zu blockieren.
  • Identity und Access Management (IAM) regelt, wie Benutzer auf digitale Ressourcen zugreifen und was sie mit diesen Ressourcen tun können, um Insider-Bedrohungen zu reduzieren und unbefugten Zugriff zu verhindern.
  • Antivirus- und Anti-Malware-Tools erkennen, verhindern und entfernen schädliche Software wie Viren, Spyware und Ransomware, die Daten gefährden könnten.
  • Data Loss Prevention (DLP)-Tools überwachen die Benutzeraktivität und melden verdächtiges Verhalten, um unbefugten Zugriff, unbefugte Übertragung oder unbefugte Offenlegung sensibler Informationen zu verhindern.

Die Rolle von Daten in der künstlichen Intelligenz (KI)

72 % der erfolgreichsten CEOs stimmen zu, dass ein Wettbewerbsvorteil davon abhängt, wer über die fortschrittlichste generative KI verfügt. Doch eine hochmoderne KI ist nur ein Teil der Gleichung. Ohne ordnungsgemäß verwaltete und zugängliche Daten können selbst die leistungsstärksten KI-Tools ihr volles Potenzial nicht entfalten.

Daten sind die Grundlage für die Weiterentwicklung und den Erfolg von künstlicher Intelligenz. KI-Systeme, insbesondere Modelle des maschinellen Lernens, sind auf Daten angewiesen, um zu lernen, sich anzupassen und branchenübergreifend Mehrwert zu schaffen.

Datenqualität und Verzerrung

Modelle für maschinelles Lernen werden anhand umfangreicher Datensätze trainiert und nutzen diese Daten, um Muster zu erkennen und Entscheidungen zu treffen.

Die Vielfalt und Datenqualität der Trainingsdaten eines KI-Modells wirken sich direkt auf seine Leistung aus. Wenn die Daten verzerrt oder unvollständig sind, können die KI-Ausgaben ungenau und unzuverlässig werden.

Im Gesundheitswesen beispielsweise könnten KI-Modelle, die auf verzerrten Datensätzen trainiert wurden, bestimmte ethnische Gruppen unterrepräsentieren, was zu schlechten Diagnoseergebnissen führt. Ebenso kann eine schlechte Datenqualität im Rahmen von Einstellungsverfahren zu fehlerhaften Vorhersagen führen, wodurch möglicherweise Geschlechter- oder Rassenstereotypen verstärkt werden und KI-Modelle entstehen, die bestimmte demografische Gruppen gegenüber anderen bevorzugen.

Kurz gesagt: KI ist nur so gut wie die Daten, die sie verarbeitet.

Die Sicherstellung einer qualitativ hochwertigen Eingabe durch umfassende Datenvalidierung und -bereinigung ist für den Aufbau ethischer, zuverlässiger KI-Systeme, die eine perpetuierende Verzerrung vermeiden, unerlässlich.

Generative KI und Datenschwachstellen

Während generative KI wertvolle Inhalte erstellen kann, bringt sie auch neue Herausforderungen mit sich. KI-Modelle können falsche oder irreführende Daten generieren, die Angreifer ausnutzen können, um Systeme oder Einzelpersonen zu täuschen.

Die Authentizität und Sicherheit von Daten ist ein wachsendes Problem. Einem kürzlich veröffentlichten Bericht zufolge stellen 75 % der leitenden Cybersicherheitsexperten eine Zunahme von Cyberangriffen fest, wobei 85 % diese Zunahme auf Kriminelle zurückführen, die generative KI einsetzen.2

Um diesen Bedrohungen entgegenzuwirken, setzen viele Unternehmen auf KI-Sicherheit und nutzen KI selbst, um die Erkennung, Prävention und Reaktion zu automatisieren und den Datenschutz zu verbessern.

Fußnoten

Alle Links befinden sich außerhalb von ibm.com.

1  How Americans View Data Privacy, Pew Research Center, 18. Oktober 2023. 

2 AI advances risk facilitating cyber crime, top US officials say, Reuters, 9. Januar 2024. 

Weiterführende Lösungen
Analysetools und -lösungen

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
IBM Cognos Analytics

Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.

Cognos Analytics erkunden
Machen Sie den nächsten Schritt

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken Analyse-Services entdecken