Zukunft Industrien

Data Scientist – der Schatzsucher im Datensee

 

Im wahrsten Sinne des Wortes macht der Data Scientist aus seinen Daten eine Wissenschaft. Er hat die Aufgabe, aus strukturierten und unstrukturierten Informationen neue Erkenntnisse und Zusammenhänge zu gewinnen. Mit IT-Werkzeugen wie Hadoop, Datenbank oder Cognitive Computing gelingt es ihm, wertvolle Schätze aus reichlich gefüllten Data Lakes zu bergen. Solche Datenseen liegen meist in einer Cloud – gewöhnlich in hybrider Form. Die Hybrid Cloud hat den Vorteil, dass sie bei zunehmender Datenflut flexibel mitwächst und verschiedene IT-Ressourcen nutzt. Egal ob Cloud Services, kognitive Technologien oder die Datenbanken – sie alle dienen dem Data Scientist dazu, in der Cloud digitales Wissen sicher zu speichern, auszuwerten und für die Entscheidungsfindung aufzubereiten.

Bäche, Flüsse, Regen oder unterirdische Quellen – sie alle füllen Seen und Ozeane mit Wasser. Wasser, das voller Geheimnisse steckt. Biologen können ein Lied davon singen, wie aufwändig es ist, die Welt der Meerestiere, Mikroorganismen oder Wasserpflanzen zu verstehen. Ähnlich geht es dem Data Scientist: Der Datenwissenschaftler sucht in der digitalen Welt nach neuem Wissen, um bisher unbekannte Zusammenhänge zu entdecken. Kein Wunder also, dass auch er von einem See spricht – dem Data Lake. Der Datensee wird mit strukturierten und unstrukturierten Daten gefüllt: Im Schnitt sind heute mehr als drei Viertel der Informationen unstrukturiert, liegen also nicht im klassischen Datenbankformat vor, sondern verstecken sich in Text-, Bild- oder Videodateien. Egal ob dieses Wissen aus Kundenkontakten, dem eigenen Unternehmen, der Social-Media-Welt oder IoT-Daten (Internet of Things) wie Sensoren oder technischen Log-Dateien stammt, der Data Lake sollte stets sicher und übersichtlich gepflegt werden.

Hybrid Cloud hat Platz für den Datensee
Der Data Scientist hat also die Aufgabe, den Data Lake zu organisieren, zu strukturieren und zu erforschen. Fundament und Becken des Datensees ist in der Regel die Cloud – meist in hybrider Form. Wobei hybrid bedeutet, dass sich die Cloud aus unterschiedlichen IT-Ressourcen wie eigenes Rechenzentrum, Public oder Private Cloud zusammensetzt. Führender Anbieter von Hybrid-Cloud-Umgebungen ist IBM. Das Unternehmen verfügt weltweit über eine Cloud, die sich aus mehr als 50 Rechenzentren speist – darunter auch die IBM Cloud in Frankfurt. Über die Cloud-Services garantiert IBM hiesigen Unternehmen nicht nur die lokale Nähe zur Cloud, sondern auch einen Datenschutz nach deutscher Rechtsprechung. Internationale Sicherheitsstandards wie der europäische Code of Conduct gewährleisten, dass Daten in der Cloud über Grenzen hinweg sicher sind. Zudem sorgt die hybride Cloud dafür, dass bei schnell steigendem Datenpegel der Data Lake eines Unternehmens nicht überschwappt.

Die Datenbank bringt Struktur in den Datensee
Im Datensee herrscht auf den ersten Blick Chaos, da von überall neue Informationen zuströmen – strukturiert oder unstrukturiert. In der Hybrid Cloud können beide Formate parallel gemanagt und analysiert werden. Gerade strukturierte Informationen lassen sich mit Datenbanken leicht und schnell bearbeiten. Allerdings ist es nicht immer sinnvoll oder auch schwierig, Informationen in ein strukturiertes Korsett zu zwängen. Der Data Scientist muss entscheiden, welches Wissen „datenbankwürdig“ ist, welche Informationen er nur speichern will oder was er als Ballast aus dem Datensee ablassen kann.

Zentraler Bestandteil einer Hybrid Cloud ist deshalb stets eine Datenbank für strukturierte Informationen. Vor mehr als 40 Jahren hat IBM ihre Datenbank unter dem Kürzel DB2 entwickelt. Jüngst wurde sie zu einer ganzen Familie erweitert und deshalb umbenannt: Aus dem großen B wurde ein kleines! Hinter Db2 verbirgt sich eine komplette Datenbankfamilie, die auf Plattformen wie Linux, UNIX oder Windows läuft. Egal ob als Linux on z oder z/OS auf der IBM Großrechnerfamilie, innerhalb von Db2 gibt es für jeden den richtigen Partner, der sich entweder on-premise im eigenen Rechenzentrum oder als Db2 on Cloud (früher dashDB) in der IBM Cloud betreiben lässt. Der Fokus bei Db2 liegt auf offenen Standards, Schnittstellen und Interoperabilität, um über die Hybrid Cloud digitale Daten problemlos austauschen und auswerten zu können. Für den Data Scientist ist die Datenbank der Schlüssel zu Themen wie Data Warehousing, Analytics, Online Transaction Processing (OLTP) oder große Datensatz-Anwendungen, die beispielsweise bei Finanzberechnungen unabdingbar sind.

Eine Spielwiese für den Data Scientist
Wenn er „spielen“ will, dann schaut sich der Data Scientist seine unstrukturierten Daten in Texten, Bildern oder Videos an: Beispielsweise korreliert er für eine bestimmte Region die Wetterdaten mit geologischen Informationen und der politischen Stimmung im Lande, um herauszufinden, ob sich ausgewählte Flächen für den Bau von Windkraftanlagen eignen. Für Reiseanbieter kann der Datenforscher aus unstrukturierten Daten zu Kultur, Klima, Terrorwarnung oder Naturkatastrophen ermitteln, welches Urlaubsland aktuell für Touristen attraktiv ist. Im Umfeld von IoT ermittelt er aus Sensordaten, Maschinenlaufzeiten und Mitarbeiterqualifikation, wie sich Fertigungsprozesse beschleunigen lassen oder Reparaturen vermieden werden können.

Um solche neue Erkenntnisse zu gewinnen, benötigt der Data Scientist verschiedene Werkzeuge und Funktionalitäten in seiner Hybrid Cloud. Mit „IBM Data Science Experience“ bietet IBM eine experimentierfreudige Spielwiese, die aus einer interaktiven, kooperativen und cloudbasierten Umgebung besteht. Über diesen Service stehen dem Data Scientist zahlreiche Open-Source-Werkzeuge wie RStudio, Jupyter, Python oder Scala zur Verfügung, die fundamental für seine Forschungsarbeit sind.

Watson eröffnet neue Erkenntniswelt
IBM Data Science Experience eröffnet auch die Möglichkeit, kognitive IBM Watson Services zu nutzen. Dank Watson Technologie können Apps die menschliche Sprache verstehen, auswerten und für die Entscheidungsfindung aufbereiten. Egal ob Polizei, Versicherungen oder Mediziner, Watson Anwendungen kommen bei unterschiedlichen Themenfeldern zum Einsatz: Zum Beispiel unterstützen kognitive Systeme den Kampf gegen die Cyber-Kriminalität. Mit Watson lassen sich Security-Trends analysieren und aus Millionen strukturierter und unstrukturierter Daten jene Informationen destillieren, mit denen man mögliche Sicherheitsrisiken erkennt. Ärzte nutzen Watson, um unter Einbindung der weltweit verfügbaren Fachliteratur eine individuelle Behandlung für Krebspatienten zu erstellen. Versicherungen erkennen mit Watson spezifische Anfragen ihrer Kunden und können diese schneller und präziser beantworten als bisher.

Hadoop vernetzt das Wissen im Datensee
Um kognitive Technologien effizient nutzen zu können, ist eine Grundordnung im Datensee nötig. Da sich Wissen nicht immer in eine Db2 Datenbankwelt packen lässt, nutzt der Data Scientist häufig das offene Apache Hadoop Framework. Hadoop bietet über ein verteiltes Filesystems ein flexibles Gerüst, das als Herzstück einer Data-Lake-Architektur dient. Mit Hadoop lassen sich beliebige Datenarten in großer Menge speichern und verarbeiten, wobei die Berechnungen über viele Knoten eines Clusters verteilt werden. Damit eignet sich Hadoop, um Rohdaten in ihrer Ursprungsform zu speichern und auszuwerten. Während eine Datenbank digitale Informationen stets in eine vorgegebene Struktur packt, ist Hadoop offen – nimmt Informationen also unabhängig von Herkunft, Format oder Wichtigkeit auf. Allerdings erfordern Installation, Betrieb und Wartung eines Hadoop Clusters eine gehörige Menge an Know-how, Aufwand, Zeit und Kosten.

Hybrid Cloud, Data Lake, Watson, Hadoop und Db2 – ihr Zusammenspiel und intelligenter Einsatz gehören zu den Herausforderungen auf dem Weg zur digitalen Transformation. IT-Verantwortliche werden zu Data Scientists, die verantwortungsvoll und spielerisch mit digitalem Wissen umgehen müssen. Längst wissen sie, dass der cloudbasierte Data Lake nie das klassische Data Warehouse verdrängen wird. Beide ergänzen sich und führen bei einer durchdachten Koexistenz zu einem Datenmanagement, mit dem Unternehmen neue Erkenntnisse gewinnen und bisher brachliegende Geschäftschancen nutzen lernen. Allerdings benötigt es tiefen Sachverstand und einen Data Scientist mit Forschergeist, der einen Blick für bisher unentdeckte Datenschätze hat, die im Datensee ruhen.

 

Mandy Chessel gibt eine Einführung in die Data Lake-Thematik.

Add Comment
No Comments

Leave a Reply

Your email address will not be published.Required fields are marked *

More Zukunft Industrien Stories

Back-Office-Digitalisierung und -Transformation durch HR Outsourcing

Die oft noch sehr traditionell aufgestellten Personalbereiche unserer Kunden müssen heutzutage eine Vielzahl neuer Herausforderungen bewältigen, um die strategischen Unternehmensziele aktiv mit zu unterstützen. Beispielsweise wachsen viele Unternehmen in völlig neuen Märkten und Regionen und benötigen dafür auch eine starke HR-Unterstützung in Lokationen, in denen man bisher nicht präsent war. Die prozessualen Ineffizienzen und hohen […]

Kognitive Technologie: Sichere Landung auf dem kognitiven Planeten

John F. Kennedy setzte alles auf eine Karte: „Noch vor Ablauf der nächsten zehn Jahre solle ein US-Amerikaner den Mond betreten und gesund wieder auf die Erde zurückkehren“. Mit diesen Worten in seiner Grundsatzrede am 25. Mai 1962 setzte der damalige US-amerikanische Präsident nicht nur den Forschern seines Landes ein Ultimatum, er setzte auch seine […]

Digital Twin: Von der digitalen Planung bis zum physischen Produkt und zurück

„Jedes Unternehmen wird zu einer Software-Company“ – dieser immer wieder (zu Recht) zitierte Trend findet nun auch auf der Produktionsebene seinen Niederschlag: „Jedes Produkt wird zu einem Software-Produkt“, lautet heute die Ansage. Die Antwort darauf ist der Digital Twin. Die Idee dahinter: Produkte, Objekte, Systeme oder Prozesse werden als Software-Repräsentation auf digitaler Ebene gespiegelt – […]