Data Science kombiniert Mathematik und Statistik, spezialisierte Programmierung, fortgeschrittene Analysen, künstliche Intelligenz (KI) und maschinelles Lernen mit spezifischem Expertenwissen, um verwertbare Erkenntnisse aus den Daten eines Unternehmens zu gewinnen. Diese Erkenntnisse können als Grundlage für die Entscheidungsfindung und die strategische Planung verwendet werden.
Die zunehmende Menge an Datenquellen – und damit an Daten – hat dazu geführt, dass Data Science in allen Branchen zu einem der am schnellsten wachsenden Bereiche geworden ist. Daher überrascht es nicht, dass die Rolle des Data Scientist von Harvard Business Review (Link befindet sich außerhalb von ibm.com) als „Sexiest Job of the 21st Century“ (attraktivster Job des 21. Jahrhunderts) bezeichnet wurde. Unternehmen sind zunehmend auf sie angewiesen, um Daten zu interpretieren und umsetzbare Empfehlungen zur Verbesserung der Geschäftsergebnisse bereitzustellen.
Der Data-Science-Lebenszyklus umfasst verschiedene Rollen, Tools und Prozesse, die es Analysten ermöglichen, umsetzbare Erkenntnisse zu gewinnen. Typischerweise durchläuft ein Data-Science-Projekt die folgenden Phasen:
Datenwissenschaft wird als Disziplin betrachtet, während Data Scientists die Praktiker innerhalb dieser Disziplin sind. Data Scientists sind nicht unbedingt direkt für alle Prozesse im Data-Science-Lebenszyklus verantwortlich. Beispielsweise werden Datenpipelines in der Regel von Dateningenieuren verwaltet. Data Scientists können jedoch Empfehlungen darüber abgeben, welche Arten von Daten nützlich oder erforderlich sind. Zwar können Data Scientists maschinelle Lernmodelle erstellen, aber die Skalierung dieser Bemühungen auf einer größeren Ebene erfordert mehr Software-Engineering-Kenntnisse, damit ein Programm schneller ausgeführt werden kann. Daher ist es üblich, dass ein Data Scientist mit Ingenieuren für maschinelles Lernen zusammenarbeitet, um Modelle für maschinelles Lernen zu skalieren.
Die Aufgaben eines Data Scientist können sich häufig mit denen eines Datenanalysten überschneiden, insbesondere in der Phase der explorativen Datenanalyse und Datenvisualisierung. Die Fähigkeiten eines Data Scientist sind jedoch in der Regel breiter als die eines durchschnittlichen Datenanalysten. Genauer gesagt, nutzen Datenwissenschaftler gängige Programmiersprachen wie R und Python, um verstärkt statistische Inferenzen und Datenvisualisierungen durchzuführen.
Um diese Aufgaben zu erfüllen, benötigen Data Scientists Kenntnisse in Informatik und den reinen Naturwissenschaften, die über die von typischen Business Analysts oder Datenanalysten hinausgehen. Der Data Scientist muss auch die Besonderheiten des Unternehmens erfassen, wie z. B. Automobilbau, E-Commerce oder Gesundheitswesen.
Kurz gesagt, ein Data Scientist muss in der Lage sein:
Diese Skills sind sehr gefragt, weshalb viele Personen, die eine Karriere im Bereich Data Science anstreben, verschiedene Data-Science-Programme, wie Zertifizierungsprogramme, Data-Science-Kurse und Studiengänge, die von Bildungseinrichtungen angeboten werden, ausprobieren.
Es kann leicht passieren, dass die Begriffe „Data Science“ und „Business Intelligence“ (BI) verwechselt werden, da sie sich beide auf die Daten eines Unternehmens und die Analyse dieser Daten beziehen, aber sie unterscheiden sich im Fokus.
Business Intelligence (BI) ist in der Regel ein Überbegriff für die Technologie, die Data Preparation, Data Mining, Datenverwaltung und Datenvisualisierung ermöglicht. Business-Intelligence-Tools und -Prozesse ermöglichen es Endbenutzern, verwertbare Informationen aus Rohdaten zu identifizieren, was die datengestützte Entscheidungsfindung in Unternehmen verschiedener Branchen erleichtert. Während sich Data Science-Tools in dieser Hinsicht weitgehend überschneiden, konzentriert sich Business Intelligence mehr auf Daten aus der Vergangenheit, und die Erkenntnisse aus BI-Tools sind eher deskriptiver Natur. BI nutzt Daten, um zu verstehen, was in der Vergangenheit geschehen ist, um eine Vorgehensweise festzulegen. BI ist auf statische (unveränderliche) Daten ausgerichtet, die in der Regel strukturiert sind. Data Science verwendet zwar deskriptive Daten, aber in der Regel zur Bestimmung von Prognosevariablen, die dann zur Kategorisierung von Daten oder zur Erstellung von Prognosen verwendet werden.
Data Science und BI schließen sich nicht gegenseitig aus – digital versierte Unternehmen nutzen beides, um ihre Daten vollständig zu verstehen und einen Mehrwert daraus zu ziehen.
Data Scientists verlassen sich auf gängige Programmiersprachen, um explorative Datenanalysen und statistische Regressionen durchzuführen. Diese Open-Source-Tools unterstützen vorgefertigte Funktionen für statistische Modellierung, maschinelles Lernen und Grafiken. Zu diesen Sprachen gehören die folgenden (mehr dazu erfahren Sie unter „Python vs. R: Was ist der Unterschied?“):
Um den Austausch von Code und anderen Informationen zu erleichtern, können Data Scientists GitHub und Jupyter Notebook verwenden.
Einige Data Scientists bevorzugen eine Benutzeroberfläche. Zwei gängige Unternehmenstools für statistische Analysen sind:
Data Scientists erwerben außerdem Kenntnisse im Umgang mit Big-Data-Verarbeitungsplattformen wie Apache Spark, dem Open-Source-Framework Apache Hadoop und NoSQL-Datenbanken. Sie kennen sich auch mit einer Vielzahl von Datenvisualisierungstools aus, darunter einfache Grafiktools, die in Geschäftspräsentations- und Tabellenkalkulationsanwendungen (wie Microsoft Excel) enthalten sind, kommerzielle Visualisierungstools wie Tableau und IBM Cognos sowie Open-Source-Tools wie D3.js (eine JavaScript-Bibliothek zur Erstellung interaktiver Datenvisualisierungen) und RAW Graphs. Für die Erstellung von Modellen für maschinelles Lernen greifen Data Scientists häufig auf verschiedene Frameworks wie PyTorch, TensorFlow, MXNet und Spark MLib zurück.
Angesichts der steilen Lernkurve im Bereich Data Science versuchen viele Unternehmen, ihren Return on Investment für KI-Projekte zu beschleunigen. Sie haben oft Schwierigkeiten, die Talente einzustellen, die erforderlich sind, um das volle Potenzial von Data-Science-Projekten auszuschöpfen. Um diese Lücke zu schließen, wenden sie sich an Multipersona-Plattformen für Data Science und maschinelles Lernen (DSML), wodurch die Rolle des „Citizen Data Scientist“ entstanden ist.
Multipersona-DSML-Plattformen nutzen Automatisierung, Selbstbedienungsportale und Low-Code/No-Code-Benutzeroberflächen, sodass auch Personen mit wenig oder gar keinem Hintergrundwissen in digitaler Technologie oder Data Science auf Expertenniveau mit Hilfe von Data Science und maschinellem Lernen geschäftlichen Mehrwert schaffen können. Diese Plattformen unterstützen auch erfahrene Data Scientists, indem sie eine stärker technisch ausgerichtete Schnittstelle bieten. Die Verwendung einer Multipersona-DSML-Plattform fördert die Zusammenarbeit im gesamten Unternehmen.
Cloud Computing skaliert Data Science durch den Zugriff auf zusätzliche Rechenleistung, Speicherung und andere Tools, die für Data-Science-Projekte erforderlich sind.
Da Data Science häufig mit großen Datensätzen arbeitet, sind Tools, die mit der Größe der Daten skalieren können, besonders für zeitkritische Projekte von enormer Bedeutung. Cloud-Speicherlösungen wie Data Lakes bieten Zugriff auf eine Speicherinfrastruktur, die in der Lage ist, große Datenmengen problemlos zu erfassen und zu verarbeiten. Diese Speichersysteme bieten Endbenutzern Flexibilität und ermöglichen es ihnen, bei Bedarf große Cluster einzurichten. Sie können auch inkrementelle Rechenknoten hinzufügen, um Datenverarbeitungsaufträge zu beschleunigen, sodass das Unternehmen kurzfristig Kompromisse zugunsten eines besseren langfristigen Ergebnisses eingehen kann. Cloud-Plattformen verfügen in der Regel über verschiedene Preismodelle, z. B. pro Nutzung oder im Abonnement, um den Bedürfnissen der Endnutzer gerecht zu werden – egal ob es sich um ein großes Unternehmen oder ein kleines Start-up handelt.
Open-Source-Technologien werden häufig in Data-Science-Toolsets verwendet. Wenn sie in der Cloud gehostet werden, müssen die Teams sie nicht lokal installieren, konfigurieren, pflegen oder aktualisieren. Mehrere Cloud-Provider, darunter IBM® Cloud, bieten auch vorgefertigte Toolkits an, mit denen Data Scientists Modelle ohne Codierung erstellen können, was den Zugang zu technologischen Innovationen und Datenerkenntnissen weiter demokratisiert.
Unternehmen können sich mit Hilfe von Data Science zahlreiche Vorteile erschließen. Zu den gängigen Anwendungsfällen gehören die Prozessoptimierung durch intelligente Automatisierung sowie verbesserte Zielgruppenansprache und Personalisierung zur Verbesserung der Customer Experience (CX). Konkretere Beispiele sind jedoch:
Hier sind einige repräsentative Anwendungsfälle für Data Science und künstliche Intelligenz:
Experimentieren Sie mit Foundation Models und erstellen Sie automatisch maschinelle Lernmodelle in unserem Studio der nächsten Generation für KI-Entwickler.
Synchronisieren Sie DevOps und ModelOps. Erstellen und skalieren Sie KI-Modelle mit Ihren cloudnativen Apps in praktisch jeder Cloud.
Verbessern Sie die Interpretierbarkeit von KI. Bewerten und mindern Sie KI-Risiken. Stellen Sie KI vertrauensvoll und sicher bereit.
Erstellen und trainieren Sie schnell hochwertige Vorhersagemodelle. Vereinfachen Sie die KI-Lebenszyklusverwaltung.
Autostrade per l’Italia hat mehrere IBM-Lösungen für eine vollständige digitale Transformation implementiert, um die Überwachung und Wartung seiner umfangreichen Infrastruktur-Assets zu verbessern.
MANA Community hat sich mit IBM Garage zusammengetan, um eine KI-Plattform zu entwickeln, die riesige Mengen an Umweltdaten aus verschiedenen digitalen Kanälen und Tausenden von Quellen auswertet.
Die völlige Freiheit bei der Wahl von Programmiersprachen, Tools und Frameworks fördert kreatives Denken und kreative Entwicklung.