Was ist Data Science?

Data Science kombiniert Mathematik und Statistik, spezialisierte Programmierung, fortgeschrittene Analysen, künstliche Intelligenz (KI) und maschinelles Lernen mit spezifischem Expertenwissen, um verwertbare Erkenntnisse aus den Daten eines Unternehmens zu gewinnen. Diese Erkenntnisse können als Grundlage für die Entscheidungsfindung und die strategische Planung verwendet werden.

Die zunehmende Menge an Datenquellen – und damit an Daten – hat dazu geführt, dass Data Science in allen Branchen zu einem der am schnellsten wachsenden Bereiche geworden ist. Daher überrascht es nicht, dass die Rolle des Data Scientist von Harvard Business Review (Link befindet sich außerhalb von ibm.com) als „Sexiest Job of the 21st Century“ (attraktivster Job des 21. Jahrhunderts) bezeichnet wurde. Unternehmen sind zunehmend auf sie angewiesen, um Daten zu interpretieren und umsetzbare Empfehlungen zur Verbesserung der Geschäftsergebnisse bereitzustellen.

Der Data-Science-Lebenszyklus umfasst verschiedene Rollen, Tools und Prozesse, die es Analysten ermöglichen, umsetzbare Erkenntnisse zu gewinnen. Typischerweise durchläuft ein Data-Science-Projekt die folgenden Phasen:

Datenaufnahme: Der Lebenszyklus beginnt mit der Datenerfassung – sowohl strukturierte als auch unstrukturierte Rohdaten aus allen relevanten Quellen mit einer Vielzahl von Methoden. Diese Methoden können manuelle Eingaben, Web Scraping und Echtzeit-Datenströme von Systemen und Geräten umfassen. Datenquellen können strukturierte Daten wie Kundendaten sowie unstrukturierte Daten wie Protokolldateien, Video, Audio, Bilder, das Internet der Dinge (Internet of Things, IoT), soziale Medien und vieles mehr umfassen.

Datenspeicherung und Datenverarbeitung: Da Daten unterschiedliche Formate und Strukturen haben können, müssen Unternehmen je nach Art der zu erfassenden Daten unterschiedliche Speichersysteme in Betracht ziehen. Datenverwaltungsteams helfen dabei, Standards für Datenspeicherung und -struktur festzulegen, die Workflows rund um Modelle für Analysen, maschinelles Lernen und Deep Learning erleichtern. Diese Phase umfasst das Bereinigen von Daten, das Deduplizieren, Transformieren und Kombinieren der Daten mithilfe von ETL-Jobs (Extrahieren, Transformieren, Laden) oder anderen Datenintegrationstechnologien. Diese Data Preparation ist unerlässlich, um die Datenqualität vor dem Laden in ein Data Warehouse, einen Data Lake oder ein anderes Repository zu verbessern.

Datenanalyse: Hier führen Data Scientists eine explorative Datenanalyse durch, um Verzerrungen, Muster, Bereiche und Verteilungen von Datenwerten zu untersuchen. Diese Datenanalyse dient der Generierung von Hypothesen für A/B-Tests. Außerdem können Analysten die Relevanz der Daten für die Modellierung von prädiktiven Analysen, maschinellem Lernen und/oder Deep Learning bestimmen. Je nach Genauigkeit eines Modells können sich Unternehmen bei der Entscheidungsfindung auf diese Erkenntnisse verlassen und so die Skalierbarkeit erhöhen.

Kommunizieren: Schließlich werden die Erkenntnisse in Form von Berichten und anderen Datenvisualisierungen präsentiert, die die Erkenntnisse – und ihre Auswirkungen auf das Geschäft – für Geschäftsanalysten und andere Entscheidungsträger leichter verständlich machen. Eine Data-Science-Programmiersprache wie R oder Python enthält Komponenten zur Erstellung von Visualisierungen. Alternativ können Data Scientists auch spezielle Visualisierungstools verwenden.

Data Science und MLOps für Data Leader

Nutzen Sie dieses E-Book, um sich mit anderen Führungskräften über die 3 wichtigsten Ziele von MLOps und vertrauenswürdiger KI abzustimmen: Vertrauen in Daten, Vertrauen in Modelle und Vertrauen in Prozesse.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book zum Thema generative KI

Beginnen Sie jetzt mit KI

Erfahren Sie, wie Sie KI skalieren

Erkunden Sie die KI Academy

Data Science versus Data Scientist

Datenwissenschaft wird als Disziplin betrachtet, während Data Scientists die Praktiker innerhalb dieser Disziplin sind. Data Scientists sind nicht unbedingt direkt für alle Prozesse im Data-Science-Lebenszyklus verantwortlich. Beispielsweise werden Datenpipelines in der Regel von Dateningenieuren verwaltet. Data Scientists können jedoch Empfehlungen darüber abgeben, welche Arten von Daten nützlich oder erforderlich sind. Zwar können Data Scientists maschinelle Lernmodelle erstellen, aber die Skalierung dieser Bemühungen auf einer größeren Ebene erfordert mehr Software-Engineering-Kenntnisse, damit ein Programm schneller ausgeführt werden kann. Daher ist es üblich, dass ein Data Scientist mit Ingenieuren für maschinelles Lernen zusammenarbeitet, um Modelle für maschinelles Lernen zu skalieren.

Die Aufgaben eines Data Scientist können sich häufig mit denen eines Datenanalysten überschneiden, insbesondere in der Phase der explorativen Datenanalyse und Datenvisualisierung. Die Fähigkeiten eines Data Scientist sind jedoch in der Regel breiter als die eines durchschnittlichen Datenanalysten. Genauer gesagt, nutzen Datenwissenschaftler gängige Programmiersprachen wie R und Python, um verstärkt statistische Inferenzen und Datenvisualisierungen durchzuführen.

Um diese Aufgaben zu erfüllen, benötigen Data Scientists Kenntnisse in Informatik und den reinen Naturwissenschaften, die über die von typischen Business Analysts oder Datenanalysten hinausgehen. Der Data Scientist muss auch die Besonderheiten des Unternehmens erfassen, wie z. B. Automobilbau, E-Commerce oder Gesundheitswesen.

Kurz gesagt, ein Data Scientist muss in der Lage sein:

Genug über das Unternehmen zu wissen, um sachdienliche Fragen zu stellen und Problembereiche des Unternehmens zu erkennen.
Statistik und Informatik in Verbindung mit geschäftlichem Sachverstand auf die Datenanalyse anzuwenden.
Eine breite Palette von Tools und Techniken zur Vorbereitung und Extraktion von Daten einzusetzen – von Datenbanken und SQL über Data Mining bis hin zu Datenintegrationsmethoden.
Erkenntnisse aus Big Data mithilfe von prädiktiven Analysen und künstlicher Intelligenz (KI) zu extrahieren, einschließlich Modellen für maschinelles Lernen, Verarbeitung natürlicher Sprache und Deep Learning.
Programme zur Automatisierung von Datenverarbeitung und -berechnungen zu schreiben.
Geschichten zu erzählen und zu illustrieren, die Entscheidungsträgern und Stakeholdern auf verschiedenen Ebenen des technischen Verständnisses die Bedeutung der Ergebnisse klar zu vermitteln.
Zu erläutern, wie die Ergebnisse zur Lösung von Geschäftsproblemen verwendet werden können.
Mit anderen Mitgliedern des Data-Science-Teams zusammenzuarbeiten, z. B. mit Daten- und Geschäftsanalysten, IT-Architekten, Dateningenieuren und Anwendungsentwicklern.

Diese Skills sind sehr gefragt, weshalb viele Personen, die eine Karriere im Bereich Data Science anstreben, verschiedene Data-Science-Programme, wie Zertifizierungsprogramme, Data-Science-Kurse und Studiengänge, die von Bildungseinrichtungen angeboten werden, ausprobieren.

Jetzt verfügbar: watsonx.ai

Das völlig neue Enterprise Studio verbindet traditionelles maschinelles Lernen mit neuen, auf Foundation Models basierenden generativen KI-Funktionen.

Ausgewählte Produkte

Watson Studio

IBM Cloud Pak for Data

Data Science versus Business Intelligence

Es kann leicht passieren, dass die Begriffe „Data Science“ und „Business Intelligence“ (BI) verwechselt werden, da sie sich beide auf die Daten eines Unternehmens und die Analyse dieser Daten beziehen, aber sie unterscheiden sich im Fokus.

Business Intelligence (BI) ist in der Regel ein Überbegriff für die Technologie, die Data Preparation, Data Mining, Datenverwaltung und Datenvisualisierung ermöglicht. Business-Intelligence-Tools und -Prozesse ermöglichen es Endbenutzern, verwertbare Informationen aus Rohdaten zu identifizieren, was die datengestützte Entscheidungsfindung in Unternehmen verschiedener Branchen erleichtert. Während sich Data Science-Tools in dieser Hinsicht weitgehend überschneiden, konzentriert sich Business Intelligence mehr auf Daten aus der Vergangenheit, und die Erkenntnisse aus BI-Tools sind eher deskriptiver Natur. BI nutzt Daten, um zu verstehen, was in der Vergangenheit geschehen ist, um eine Vorgehensweise festzulegen. BI ist auf statische (unveränderliche) Daten ausgerichtet, die in der Regel strukturiert sind. Data Science verwendet zwar deskriptive Daten, aber in der Regel zur Bestimmung von Prognosevariablen, die dann zur Kategorisierung von Daten oder zur Erstellung von Prognosen verwendet werden.

Data Science und BI schließen sich nicht gegenseitig aus – digital versierte Unternehmen nutzen beides, um ihre Daten vollständig zu verstehen und einen Mehrwert daraus zu ziehen.

Data-Science-Tools

Data Scientists verlassen sich auf gängige Programmiersprachen, um explorative Datenanalysen und statistische Regressionen durchzuführen. Diese Open-Source-Tools unterstützen vorgefertigte Funktionen für statistische Modellierung, maschinelles Lernen und Grafiken. Zu diesen Sprachen gehören die folgenden (mehr dazu erfahren Sie unter „Python vs. R: Was ist der Unterschied?“):

R Studio: Eine Open-Source-Programmiersprache und -umgebung für die Entwicklung statistischer Berechnungen und Grafiken.
Python: Es handelt sich um eine dynamische und flexible Programmiersprache. Python enthält zahlreiche Bibliotheken, wie z. B. NumPy, Pandas, Matplotlib, um Daten schnell zu analysieren.

Um den Austausch von Code und anderen Informationen zu erleichtern, können Data Scientists GitHub und Jupyter Notebook verwenden.

Einige Data Scientists bevorzugen eine Benutzeroberfläche. Zwei gängige Unternehmenstools für statistische Analysen sind:

SAS: Eine umfassende Tool-Suite, einschließlich Visualisierungen und interaktiver Dashboards, für Analyse, Berichterstattung, Data Mining und prädiktive Modellierung.
IBM SPSS: Bietet erweiterte statistische Analysen, eine umfangreiche Bibliothek mit Algorithmen für maschinelles Lernen, Textanalyse, Open-Source-Erweiterbarkeit, Integration mit Big Data und nahtlose Bereitstellung in Anwendungen.

Data Scientists erwerben außerdem Kenntnisse im Umgang mit Big-Data-Verarbeitungsplattformen wie Apache Spark, dem Open-Source-Framework Apache Hadoop und NoSQL-Datenbanken. Sie kennen sich auch mit einer Vielzahl von Datenvisualisierungstools aus, darunter einfache Grafiktools, die in Geschäftspräsentations- und Tabellenkalkulationsanwendungen (wie Microsoft Excel) enthalten sind, kommerzielle Visualisierungstools wie Tableau und IBM Cognos sowie Open-Source-Tools wie D3.js (eine JavaScript-Bibliothek zur Erstellung interaktiver Datenvisualisierungen) und RAW Graphs. Für die Erstellung von Modellen für maschinelles Lernen greifen Data Scientists häufig auf verschiedene Frameworks wie PyTorch, TensorFlow, MXNet und Spark MLib zurück.

Angesichts der steilen Lernkurve im Bereich Data Science versuchen viele Unternehmen, ihren Return on Investment für KI-Projekte zu beschleunigen. Sie haben oft Schwierigkeiten, die Talente einzustellen, die erforderlich sind, um das volle Potenzial von Data-Science-Projekten auszuschöpfen. Um diese Lücke zu schließen, wenden sie sich an Multipersona-Plattformen für Data Science und maschinelles Lernen (DSML), wodurch die Rolle des „Citizen Data Scientist“ entstanden ist.

Multipersona-DSML-Plattformen nutzen Automatisierung, Selbstbedienungsportale und Low-Code/No-Code-Benutzeroberflächen, sodass auch Personen mit wenig oder gar keinem Hintergrundwissen in digitaler Technologie oder Data Science auf Expertenniveau mit Hilfe von Data Science und maschinellem Lernen geschäftlichen Mehrwert schaffen können. Diese Plattformen unterstützen auch erfahrene Data Scientists, indem sie eine stärker technisch ausgerichtete Schnittstelle bieten. Die Verwendung einer Multipersona-DSML-Plattform fördert die Zusammenarbeit im gesamten Unternehmen.

Data Science und Cloud Computing

Cloud Computing skaliert Data Science durch den Zugriff auf zusätzliche Rechenleistung, Speicherung und andere Tools, die für Data-Science-Projekte erforderlich sind.

Da Data Science häufig mit großen Datensätzen arbeitet, sind Tools, die mit der Größe der Daten skalieren können, besonders für zeitkritische Projekte von enormer Bedeutung. Cloud-Speicherlösungen wie Data Lakes bieten Zugriff auf eine Speicherinfrastruktur, die in der Lage ist, große Datenmengen problemlos zu erfassen und zu verarbeiten. Diese Speichersysteme bieten Endbenutzern Flexibilität und ermöglichen es ihnen, bei Bedarf große Cluster einzurichten. Sie können auch inkrementelle Rechenknoten hinzufügen, um Datenverarbeitungsaufträge zu beschleunigen, sodass das Unternehmen kurzfristig Kompromisse zugunsten eines besseren langfristigen Ergebnisses eingehen kann. Cloud-Plattformen verfügen in der Regel über verschiedene Preismodelle, z. B. pro Nutzung oder im Abonnement, um den Bedürfnissen der Endnutzer gerecht zu werden – egal ob es sich um ein großes Unternehmen oder ein kleines Start-up handelt.

Open-Source-Technologien werden häufig in Data-Science-Toolsets verwendet. Wenn sie in der Cloud gehostet werden, müssen die Teams sie nicht lokal installieren, konfigurieren, pflegen oder aktualisieren. Mehrere Cloud-Provider, darunter IBM® Cloud, bieten auch vorgefertigte Toolkits an, mit denen Data Scientists Modelle ohne Codierung erstellen können, was den Zugang zu technologischen Innovationen und Datenerkenntnissen weiter demokratisiert.

Anwendungsfälle für Data Science

Unternehmen können sich mit Hilfe von Data Science zahlreiche Vorteile erschließen. Zu den gängigen Anwendungsfällen gehören die Prozessoptimierung durch intelligente Automatisierung sowie verbesserte Zielgruppenansprache und Personalisierung zur Verbesserung der Customer Experience (CX). Konkretere Beispiele sind jedoch:

Hier sind einige repräsentative Anwendungsfälle für Data Science und künstliche Intelligenz:

Eine internationale Bank bietet schnellere Kreditdienstleistungen mit einer mobilen App unter Verwendung maschinell lernender Kreditrisikomodelle und einer hybriden Cloud-Computing-Architektur, die sowohl leistungsstark als auch sicher ist.
Ein Elektronikunternehmen entwickelt extrem leistungsstarke 3D-gedruckte Sensoren, um die fahrerlosen Fahrzeuge der Zukunft zu steuern. Die Lösung stützt sich auf Tools der Data Science und Analytik, um die Objekterkennungsfunktionen in Echtzeit zu verbessern.
Ein Anbieter von RPA-Lösungen (Robotic Process Automation) entwickelte eine Lösung im Bereich Cognitive Business Process Mining, mit der die Bearbeitungszeiten von Vorfällen für seine Kundenunternehmen um zwischen 15 % und 95 % reduziert werden. Die Lösung ist darauf trainiert, den Inhalt und die Stimmung von Kunden-E-Mails zu verstehen und leitet die Serviceteams dazu an, diejenigen zu priorisieren, die am relevantesten und dringendsten sind.
Ein Unternehmen für digitale Medientechnologie hat eine Plattform zur Zielgruppenanalyse entwickelt, die es seinen Kunden ermöglicht, zu sehen, was ein Fernsehpublikum anspricht, während eine wachsende Anzahl von digitalen Kanälen angeboten wird. Die Lösung nutzt tiefgreifende Analysen und maschinelles Lernen, um in Echtzeit Erkenntnisse über das Zuschauerverhalten zu gewinnen.
Eine städtische Polizeibehörde hat statistische Tools zur Analyse von Vorfällen (Link befindet sich außerhalb von ibm.com) entwickelt, um den Beamten aufzuzeigen, wann und wo sie Ressourcen einsetzen sollten, um Verbrechen zu verhindern. Die datengestützte Lösung erstellt Berichte und Dashboards, um das Situationsbewusstsein der Einsatzkräfte vor Ort zu verbessern.
Shanghai Changjiang Science and Technology Development nutzte die IBM® Watson-Technologie, um eine KI-basierte medizinische Bewertungsplattform zu entwickeln, die vorhandene Krankenakten analysieren kann, um Patienten auf der Grundlage ihres Schlaganfallrisikos zu kategorisieren, und die außerdem in der Lage ist, die Erfolgsrate verschiedener Behandlungspläne vorherzusagen.

Weiterführende Lösungen

watsonx.ai

Experimentieren Sie mit Foundation Models und erstellen Sie automatisch maschinelle Lernmodelle in unserem Studio der nächsten Generation für KI-Entwickler.

watsonx.ai erkunden

Sehen Sie sich die interaktive Demo an

IBM Watson Studio

Synchronisieren Sie DevOps und ModelOps. Erstellen und skalieren Sie KI-Modelle mit Ihren cloudnativen Apps in praktisch jeder Cloud.

Entdecken Sie jetzt IBM Watson Studio

Explainable AI

Verbessern Sie die Interpretierbarkeit von KI. Bewerten und mindern Sie KI-Risiken. Stellen Sie KI vertrauensvoll und sicher bereit.

Mehr über erklärbare KI erfahren

AutoAI

Erstellen und trainieren Sie schnell hochwertige Vorhersagemodelle. Vereinfachen Sie die KI-Lebenszyklusverwaltung.

AutoAI erkunden

Ressourcen

Autostrade per l'Italia

Autostrade per l’Italia hat mehrere IBM-Lösungen für eine vollständige digitale Transformation implementiert, um die Überwachung und Wartung seiner umfangreichen Infrastruktur-Assets zu verbessern.

MANA Community

MANA Community hat sich mit IBM Garage zusammengetan, um eine KI-Plattform zu entwickeln, die riesige Mengen an Umweltdaten aus verschiedenen digitalen Kanälen und Tausenden von Quellen auswertet.

Architektonisches Denken im Wilden Westen der Data Science

Die völlige Freiheit bei der Wahl von Programmiersprachen, Tools und Frameworks fördert kreatives Denken und kreative Entwicklung.

Machen Sie den nächsten Schritt

Skalieren Sie KI-Workloads für alle Ihre Daten, überall, mit IBM watsonx.data, einem zweckmäßigen Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert.

watsonx.data erkunden

Buchen Sie eine Live-Demo