Data Scientists untersuchen große Datensätze mithilfe fortgeschrittener statistischer Analysen und Algorithmen für maschinelles Lernen. Dabei identifizieren sie Muster in Daten, um kritische Erkenntnisse zu gewinnen, und verwenden diese Muster dann typischerweise, um Lösungen für maschinelles Lernen zu entwickeln, die effizientere und genauere Erkenntnisse im großen Maßstab ermöglichen. Entscheidend ist, dass sie diese Statistikerfahrung mit Erfahrung in der Softwareentwicklung kombinieren.
Zu ihren wichtigsten Aufgaben gehören:
- Umwandlung und Bereinigung großer Datensätze in ein verwendbares Format
- Anwendung von Techniken wie Cluster, neuronalen Netzen und Entscheidungsbäumen, um Erkenntnisse aus Daten zu gewinnen
- Analyse von Daten, um Muster und Trends zu erkennen, die sich auf das Geschäft auswirken können
- Entwicklung von Algorithmen für maschinelles Lernen (Link befindet sich außerhalb von ibm.com) zur Auswertung von Daten
- Erstellen von Datenmodellen zur Vorhersage von Ergebnissen
Zu den wichtigen Fähigkeiten für einen Data Scientist gehören:
- Expertise in SAS, R und Python
- Langjährige Erfahrung in den Bereichen maschinelles Lernen, Datenaufbereitung und fortgeschrittene Mathematik
- Erfahrung im Umgang mit Big-Data-Tools
- Verständnis für API-Entwicklung und -Abläufe
- Hintergrund in Datenoptimierung und Data Mining
- Starke kreative Kompetenzen in der Denk- und Entscheidungsfindung
Wie wirkt all das zusammen?
Selbst wenn Sie die Beschreibungen eines Data Engineers, eines Data Scientists und eines Analytics Engineers nebeneinander sehen, kann es zu Verwirrung führen, da es sicherlich Überschneidungen bei den Fähigkeiten und Schwerpunktbereichen dieser einzelnen Rollen gibt. Wie passt das alles zusammen?
Ein Data Engineer erstellt Programme, die Daten generieren, und obwohl sie darauf abzielen, dass diese Daten aussagekräftig sind, müssen sie dennoch mit anderen Quellen kombiniert werden. Ein Analytics Engineer führt diese Datenquellen zusammen, um Systeme zu entwickeln, die Benutzern den Zugriff auf konsolidierte Erkenntnisse auf leicht zugängliche und wiederholbare Weise ermöglichen. Ein Data Scientist schließlich entwickelt Tools, um all diese Daten in großem Maßstab zu analysieren und Muster und Trends schneller und besser zu erkennen, als es ein Mensch könnte.
Entscheidend ist, dass eine enge Beziehung zwischen diesen Rollen besteht. Aber allzu oft stellt sich heraus, dass diese nicht mehr funktioniert. Jeff Magnuson, Vice President, Data Platform bei Stich Fix, schrieb vor einigen Jahren über dieses Thema in einem Artikel mit dem Titel Engineers Should Write ETL (Link befindet sich außerhalb von ibm.com).Die Kernaussage seines Artikels war, dass Teams keine getrennten „Denker“ und „Macher“ haben sollten. Vielmehr benötigen hochfunktionale Datenteams eine durchgängige Verantwortung für die von ihnen produzierte Arbeit, was bedeutet, dass es zwischen diesen Rollen keine Mentalität geben sollte, Aufgaben an andere weiterzugeben.
Das Ergebnis ist ein hoher Bedarf an Data Scientists, die einen technischen Hintergrund haben und sich mit Dingen wie dem Aufbau wiederholbarer Prozesse und der Bedeutung von Betriebszeit und SLAs auskennen. Dieser Ansatz hat wiederum Auswirkungen auf die Rolle der Dateningenieure, die dann auf ganz andere Weise Seite an Seite mit Data Scientists arbeiten können. Und das übertragen sich natürlich auch auf die Analytics Engineers.
Den Unterschied zwischen Data Engineer, Data Scientist und Analytics Engineers ein für alle Mal verstehen – vorerst
Tatsache bleibt, dass viele Unternehmen jede dieser Rollen anders definieren. Es ist schwierig, eine klare Grenze zwischen dem Ende und dem Anfang zu ziehen, da sie alle bis zu einem gewissen Grad ähnliche Aufgaben haben. Josh Laurito fasst zusammen: „Jeder schreibt SQL. Jeder kümmert sich um die Qualität. Jeder wertet verschiedene Tabellen aus und schreibt irgendwo Daten, und alle beschweren sich über Zeitzonen. Alle machen viele der gleichen Dinge. Wir teilen die Dinge also so auf, dass die Menschen in Bezug auf unsere primären Analysedaten stehen, die wir speichern.“
Bei Squarespace bedeutet dies, dass die Data Engineers für die gesamte Arbeit zum Aufbau und der Wartung dieser speichern verantwortlich sind, dass die Analytics Engineers in die Funktionsteams eingebettet sind, um die Entscheidungsfindung zu unterstützen, Berichte über die Daten zusammenzustellen und diese zu nutzen, um Maßnahmen und Entscheidungen voranzutreiben, und Data Scientists sitzen in der Mitte und schaffen Anreizstrukturen und Metriken, um Entscheidungen zu treffen und die Menschen zu leiten.
Natürlich sieht es bei jedem Unternehmen etwas anders aus. Und so unscharf die Grenzen jetzt auch sind, jede dieser Rollen wird sich weiterentwickeln und die Dynamik zwischen ihnen weiter verschieben. Aber ich hoffe, dass dieser Überblick dazu beiträgt, die Frage zu klären, was der Unterschied zwischen einem Data Engineer, einem Data Scientist und einem Analytics Engineer ist – vorerst.
Erfahren Sie mehr über die Daten-Observability-Plattform von IBM Databand und wie sie hilft, Datenvorfälle früher zu erkennen, sie schneller zu lösen und dem Unternehmen vertrauenswürdigere Daten bereitzustellen. Wenn Sie bereit sind, einen genaueren Blick darauf zu werfen, buchen Sie noch heute eine Demo.