Als Unternehmen begannen, in fortschrittliche Technologien für Datenspeicher zu investieren, damit Daten für die Gewinnung von Erkenntnissen und die Automatisierung von Entscheidungen allgemein zugänglich und nutzbar werden, sahen sich Dateningenieure mit verschiedenen Herausforderungen konfrontiert, da die Lösungen nicht wie beabsichtigt skalierbar waren. Da die Daten oft fehlerhaft, unvollständig und nicht aussagekräftig oder wahrheitsgemäß waren und die Ingenieure nur sehr wenig über die Quelldomänen wussten, aus denen diese Daten stammten, hatten sie Schwierigkeiten, Fehler zu korrigieren, die sie nicht kannten oder nicht verstanden.
Dateningenieure erkannten die Notwendigkeit, ihren Ansatz bei der Entwicklung moderner verteilter Architekturen zu ändern. Sie erkannten die Bedeutung der Einführung einer neuen Methodik, die die Architektur um die spezifischen Geschäftsbereiche herum organisiert, die sie unterstützen soll. Dieser Ansatz umfasst das Produktdenken, um eine funktionale und benutzerfreundliche Self-Service-Dateninfrastruktur zu entwickeln.1
Beim Produktdenken geht es um mehr als nur um die Merkmale eines Produkts. Es geht um die Schaffung sinnvoller Lösungen, die bei den Nutzern Anklang finden und sich auf dem Markt von der Konkurrenz abheben. Diese Philosophie beeinflusst jede Phase des Produktentwicklungsprozesses, von der Ideenfindung bis hin zur Markteinführung und Iteration. Die Ingenieure erkannten, dass sie durch die Behandlung von Daten als Produkt deren Nutzung und Wert innerhalb des Unternehmens erheblich steigern konnten.
Durch die Einführung eines Ansatzes, der Datensätze als Produkte behandelt, werden Teams für bestimmte Bereiche gebildet, die für die Verwaltung und Verbreitung ihrer Daten im gesamten Unternehmen zuständig sind. So kann die Benutzererfahrung für die Hauptnutzer dieser Daten – in der Regel Data Scientist und -ingenieure – besser in den Mittelpunkt gestellt werden.
Diese Domain-Teams teilen ihre Daten über APIs (Programmierschnittstelle), die von einer umfassenden Dokumentation, robusten Testumgebungen und klaren Leistungsindikatoren begleitet werden.
Ein erfolgreiches DaaP muss die folgenden Anforderungen erfüllen:
- Leicht zu finden
- Adressierbar
- Vertrauenswürdig
- Gut dokumentiert
- Kann mit anderen Datenprodukten verwendet werden
- Sicher
Das bedeutet, dass Daten in einer DaaP-Methodik leicht auffindbar, zuverlässig, eindeutig in ihrer Darstellung und mit anderen Daten integrierbar sein müssen und vor unbefugtem Zugriff geschützt werden müssen.
Stellen Sie sich DaaP wie Flugreisen vor, und jede Information ist ein Flugreisender: Unternehmen und Benutzer müssen wissen, woher jeder Datenpunkt stammt, welche Transformationen er durchlaufen hat und wo er letztendlich landen soll. Dies wird als Datenabstammung bezeichnet und ist ein entscheidendes Element für eine effektive DaaP-Einführung. Durch die Verwendung von Tools wie IBM InfoSphere, AWS Glue oder Cloudera Data Hub können Unternehmen Metadaten verwalten und Datenverläufe nachverfolgen, um Transparenz zu gewährleisten und Verwirrung zu vermeiden.
Sobald jeder Reisende ordnungsgemäß überprüft wurde, besteigen sie das Flugzeug. Genauso wie die Fluggesellschaft sicherstellen muss, dass das Flugzeug groß und stabil genug ist, um die Passagiere zu befördern, müssen Unternehmen eine skalierbare Infrastruktur verwenden, um wachsende Datenmengen und mehrere Zugriffsanfragen zu bewältigen. Je nach den spezifischen Geschäftsanforderungen und Marktsegmenten eines Unternehmens gibt es eine Reihe von cloudbasierten Plattformen, Open-Source-Lösungen und kommerziellen Plattformen, aus denen Unternehmen wählen können.
Stellen Sie sich nun vor, Sie benötigen Fluginformationen, aber das System ist ausgefallen. Dies untergräbt das Vertrauen der Reisenden und lässt eine Fluggesellschaft als unzuverlässig und ineffizient erscheinen. Genau aus diesem Grund müssen die Tools von DaaP stets zuverlässig funktionieren. Aus diesem Grund müssen Unternehmen auch klare Pläne und Berichte zur Datenwiederherstellung und Redundanz vorlegen.
Ohne Sicherheit gibt es keine Flugreisen und dasselbe gilt für DaaP. Sicherheitsfunktionen wie rollenbasierte Zugriffskontrolle, Datenverschlüsselung und Einbruchserkennungssysteme schützen sensible Daten und gewährleisten die Einhaltung von Vorschriften wie der DSGVO und dem HIPAA. Governance-Praktiken, einschließlich der Überwachung der Datenqualität, Katalogisierung und des Change Managements, stellen sicher, dass die Daten des Unternehmens zuverlässig und zugänglich sind.