Il Data as a product (DaaP) è un approccio alla gestione e all'analisi dei dati in cui i set di dati vengono trattati come prodotti autonomi progettati, realizzati e gestiti pensando agli utenti finali. Questo concetto prevede l'applicazione dei principi di gestione del prodotto al ciclo di vita dei dati, enfatizzando la qualità, l'usabilità e la soddisfazione dell'utente.
Il concetto di data as a product è diventato una strategia di dati popolare tra le organizzazioni che desiderano cogliere appieno il potenziale dei propri asset di dati.
Il DaaP trasforma i dati non elaborati in un prodotto strutturato, accessibile e di valore. Questa trasformazione incoraggia le organizzazioni a considerare i dati accumulati nel corso di decenni, costituiti da documenti, set di dati e registri digitali, come un ricco archivio di insight fondamentale per il processo decisionale e il coinvolgimento del cliente.
Il potenziale dei dati è spesso nascosto all'interno di silos che li rendono inaccessibili e poco valorizzati. L'emergere del DaaP segna un allontanamento da questa tendenza, sostenendo un approccio sistematico alla gestione dei dati che pone l'accento sull'accessibilità, la governance e l'utilità. Questa metodologia si basa sul principio secondo cui i dati, come qualsiasi prodotto di consumo, devono essere gestiti e organizzati meticolosamente per soddisfare le esigenze specifiche dei loro utilizzatori, siano essi clienti, dipendenti o partner.
Sebbene correlati, il DaaP e i prodotti di dati hanno scopi distinti all'interno della gestione dei dati.
Il DaaP è una metodologia olistica per la gestione dei dati, in particolare nell'ambito dei principi del data mesh, progettata per trattare i dati come un prodotto commerciabile che può essere fornito a vari utenti all'interno e all'esterno dell'organizzazione. Il DaaP contiene il codice, i relativi dati e metadati e tutta l'infrastruttura necessaria per eseguirlo.
Una piattaforma che raccoglie insight sui clienti progettata per un'azienda nel retail è un buon esempio di DaaP. La piattaforma aggrega i dati dei clienti su più punti di contatto, come gli acquisti in negozio, il comportamento di acquisto online, le interazioni con il servizio clienti e le interazioni sui social media, per creare una visione completa delle preferenze, dei comportamenti e dei modelli di acquisto di ciascun cliente.
Al contrario, i prodotti di dati si concentrano sull'utilizzo dei dati per fornire insight e soluzioni attuabili, come dashboard di analytics e modelli predittivi. Risolvono problemi specifici, sono supportati da sofisticate tecniche di trattamento dei dati e si rivolgono a un vasto pubblico, tra cui product manager, data scientist e utenti finali. Esempi di prodotti di dati possono essere una dashboard di analytics, un chatbot o persino un sistema di raccomandazione, come quello presente su Amazon.
Entrambi i concetti si fondano su una base comune di gestione e governance dei dati, con l'obiettivo finale di trarre il massimo valore dai dati.
Quando le aziende hanno iniziato a investire in tecnologie avanzate di storage per rendere i dati ampiamente accessibili e utilizzabili per generare insight e automatizzare le decisioni, i data engineer hanno dovuto affrontare diverse sfide perché le soluzioni non erano scalabili come previsto. Poiché i dati erano spesso pieni di errori, incompleti e non significativi o inattendibili—, e poiché gli ingegneri avevano una conoscenza molto limitata dei domini di origine che li avevano generati, facevano fatica a correggere ciò che non conoscevano o non comprendevano.
I data engineer hanno avvertito la necessità di cambiare il proprio approccio alla progettazione di architetture distribuite moderne. Hanno riconosciuto l'importanza di adottare una nuova metodologia che organizzi l'architettura intorno ai domini di business specifici che mira a supportare. Questo approccio integra il product thinking per sviluppare un’infrastruttura dati self-service funzionale e facile da usare.1
Il product thinking va oltre le semplici caratteristiche di un prodotto: si tratta di creare soluzioni significative, che rispondano ai bisogni degli utenti e si distinguano sul mercato. È una filosofia che influenza ogni fase del processo di sviluppo del prodotto, dall'ideazione al lancio fino all'iterazione. Gli ingegneri si sono resi conto che trattando i dati come un prodotto, potevano migliorarne notevolmente l'uso e il valore all'interno dell'organizzazione.
Nell'adozione di un approccio che tratta i set di dati come prodotti, vengono creati team di dominio all'interno di specifiche aree aziendali affinché si occupino della gestione e della diffusione dei dati all'interno dell'organizzazione, per mettere al centro l'esperienza utente dei principali utilizzatori di questi dati, ovvero data scientist e ingegneri.
Questi team di dominio condividono i propri dati tramite application programming interface (API), accompagnate da una documentazione completa, ambienti di test affidabili e indicatori di prestazioni chiari.
Un DaaP di successo deve soddisfare i seguenti requisiti:
Ciò significa che in una metodologia DaaP, i dati devono essere facili da individuare, affidabili, chiari in ciò che rappresentano, integrabili con altri dati e protetti da accessi non autorizzati.
Possiamo immaginare il DaaP come un viaggio aereo e ogni dato come un passeggero: organizzazioni e utenti devono sapere da dove proviene ogni singolo dato, quali trasformazioni ha subito e dove è destinato ad arrivare. Questo si chiama data lineage ed è un elemento cruciale per un'efficace adozione del DaaP. Utilizzando strumenti come IBM InfoSphere, AWS Glue o Cloudera Data Hub, le organizzazioni possono gestire i metadati e tracciare i percorsi dei dati per garantire trasparenza ed evitare confusione.
Una volta che ogni viaggiatore è stato opportunamente controllato, sale a bordo dell'aereo. Così come la compagnia aerea deve garantire che l'aereo sia abbastanza grande e robusto da sostenere i passeggeri, le organizzazioni devono utilizzare un'infrastruttura scalabile per soddisfare i crescenti volumi di dati e le numerose richieste di accesso. A seconda delle esigenze aziendali specifiche di un'organizzazione e dei segmenti di mercato, ci sono diverse piattaforme basate sul cloud, soluzioni open source e piattaforme commerciali tra cui le organizzazioni possono scegliere.
Ora, immaginiamo di aver bisogno di informazioni su un volo, ma il sistema non funziona. Questo compromette la fiducia dei viaggiatori e fa apparire la compagnia aerea come inaffidabile e inefficace. Ed è proprio per questo che gli strumenti DaaP devono essere sempre efficienti. È anche il motivo per cui le organizzazioni devono fornire piani e report chiari sul ripristino e la ridondanza dei dati.
Non esiste viaggio aereo senza sicurezza e lo stesso vale per il DaaP. Funzionalità di sicurezza come il controllo degli accessi basato sui ruoli, la crittografia dei dati e i sistemi di rilevamento delle intrusioni proteggono i dati sensibili e garantiscono la conformità a normative quali GDPR e HIPAA. Le pratiche di governance, tra cui il monitoraggio della qualità dei dati, la catalogazione e la gestione del cambiamento, garantiscono che i dati dell'organizzazione siano affidabili e accessibili.
Al centro del DaAP c'è una meticolosa orchestrazione dei set di dati. Questi set di dati sono gestiti attraverso pratiche di data engineering, che prevedono la progettazione, la creazione e la gestione di pipeline di dati su larga scala. Queste pipeline trasportano i dati dalle loro fonti attraverso un processo end-to-end, trasformando i dati non elaborati in informazioni strutturate e di alta qualità, archiviate in data warehouse o data lake. Le piattaforme di dati costituiscono la base di queste operazioni e forniscono l'infrastruttura e gli strumenti necessari ai team di dati per svolgere in modo efficiente attività di analytics e data science.
I modelli e gli schemi di dati sono fondamentali in questo contesto, perché definiscono il modo in cui i dati sono organizzati, memorizzati e correlati all'interno del data warehouse o data lake. Garantiscono che i dati siano rilevabili, accessibili e utilizzabili per i consumatori di dati, ovvero gli analisti aziendali, i data scientist e gli sviluppatori di applicazioni che ricavano insight e creano app basate su questi dati. SQL (Structured Query Language) è uno strumento fondamentale per interagire con i dati, consentendo agli utenti dei dati di interrogare, manipolare e analizzare i set di dati per soddisfare le proprie esigenze specifiche.
I team che si occupano dei dati utilizzano metriche per valutare la qualità, le prestazioni e il valore dei prodotti di dati. Queste metriche guidano i processi di iterazione e miglioramento continuo, garantendo che il prodotto di dati si evolva in risposta al feedback dei consumatori di dati e ai cambiamenti nei requisiti aziendali.
Le API sono i canali attraverso i quali i prodotti di dati vengono forniti agli utenti finali e alle applicazioni. Facilitano l'accesso, consentendo ai consumatori di dati di integrare e utilizzare i dati in vari casi d'uso, dal reporting operativo ai progetti avanzati di machine learning e intelligenza artificiale(AI). Questa funzionalità di integrazione sottolinea l'importanza di una strategia API ben progettata nel ciclo di vita DaaP, per garantire che i dati siano non solo accessibili ma anche fruibili.
L'applicazione del machine learning e dell'AI all'interno del DaaP consente alle aziende di sbloccare insight predittivi e automatizzare i processi decisionali. Impiegando modelli di machine learning addestrati su dati storici, le aziende possono anticipare le tendenze future, ottimizzare le operazioni e creare esperienze personalizzate per i clienti. Questo uso avanzato dei dati sottolinea la natura iterativa del DaaP, in cui i prodotti di dati vengono continuamente perfezionati e migliorati sulla base di nuovi dati, casi d'uso emergenti e feedback dei consumatori di dati.
Il DaaP sostiene la gestione del ciclo di vita di un prodotto di dati, dal momento della creazione alla manutenzione e alla sua evoluzione nel tempo. Comprende una serie di fasi, tra cui pianificazione, sviluppo, implementazione e iterazione, ognuna delle quali richiede una stretta collaborazione tra team di dati, stakeholder aziendali e consumatori di dati. Questo approccio che abbraccia l'intero ciclo di vita garantisce che i prodotti di dati rimangano pertinenti, utili e allineati agli obiettivi aziendali.
Per rendere i dati più utili all'interno di un'organizzazione, è essenziale che i set di dati siano facili da individuare, affidabili e capaci di integrarsi bene con altri dati. Per rendere i dati DaaP facilmente individuabili e raggiungibili all'interno di un’organizzazione, è necessario implementare un registro o catalogo centralizzato. Questo registro dovrebbe contenere tutti i dati DaaP disponibili, inclusi metadati come proprietà, origine e lineage, consentendo a consumatori di dati, data engineer e data scientist di individuare rapidamente i set di dati rilevanti.
Definendo obiettivi del livello di servizio (SLO) relativi all'affidabilità dei dati e applicando fin dall'inizio processi rigorosi di pulizia e verifica dell'integrità dei dati, le organizzazioni possono rafforzare la fiducia degli utenti nei propri dati. Inoltre, i dati devono essere autodescrittivi e rispettare gli standard globali di interoperabilità, consentendo l'integrazione dei dati in vari domini. In questo ecosistema, il ruolo dei proprietari e degli ingegneri dei prodotti di dati è fondamentale: definiscono e guidano la gestione del ciclo di vita dei dati DaaP per soddisfare gli utenti e soddisfare gli standard di qualità. Questo approccio non solo richiede un insieme di competenze in materia di dati e ingegneria del software, ma promuove anche una cultura di innovazione, condivisione delle competenze e collaborazione interfunzionale nel landscape tecnologico.
Il DaaP incoraggia le aziende a considerare tutti i dati come prodotti di valore, applicando i principi tipici dei prodotti orientati al consumatore nella gestione, selezione, personalizzazione e distribuzione dei dati. Questo approccio favorisce un flusso continuo di dati di alta qualità dai creatori ai consumatori, supportato da strumenti e mentalità incentrati sul cliente. Immaginiamo i dati come un prodotto esposto in un negozio: secondo la metodologia DaaP, un'organizzazione dovrebbe trattare i propri dati con la stessa cura e attenzione dei prodotti fisici.
Ciò significa raccogliere e memorizzare solo i dati realmente utili, garantire che i dati siano presentati in modo chiaro, organizzato e intuitivo e che si adattino al settore o al dominio. Una volta che questi elementi sono al loro posto, il DaaP consente la distribuzione di dati di alta qualità all'interno dell'organizzazione. Questi dati fruibili contribuiscono al funzionamento dell'organizzazione.
Applicare un approccio DaaP all'interno di un'organizzazione significa allineare gli stakeholder e tenerli informati, sviluppare una mentalità in cui i dati vengono trattati e gestiti come un prodotto di alta qualità e significa creare o investire in strumenti self-service, uno dei principi fondamentali del concetto di data mesh, un approccio in via di sviluppo all'architettura decentralizzata dei dati.
L'adozione del DaaP presenta delle sfide, tra cui problemi di privacy dei dati, resistenza dell'organizzazione al cambiamento e la necessità che i dipendenti acquisiscano maggiori competenze nell'uso e nella comprensione dei dati. Il superamento di questi ostacoli richiede una pianificazione strategica, il coinvolgimento e l'impegno dell'organizzazione e investimenti in tecnologia e talenti.
Comprendere e rispettare le normative sulla privacy dei dati in un marketplace globale che coinvolge regioni e regole diverse è un grosso ostacolo da superare. Le organizzazioni necessitano di competenze e risorse per garantire che i loro prodotti DaaP aderiscano a normative rigorose in ogni luogo.
Le violazioni dei dati spesso catturano l'attenzione dei media e i consumatori sono sempre più consapevoli di come le organizzazioni utilizzano i loro dati. Creare fiducia attraverso pratiche trasparenti di gestione dei dati e una documentazione chiara sull'utilizzo dei dati all'interno del DaaP è fondamentale per guadagnare la fiducia degli utenti. Qualsiasi organizzazione che prenda in considerazione il DaaP ha bisogno di solide misure di sicurezza per proteggere i dati da violazioni e accessi non autorizzati ai dati. Ciò include l'implementazione della crittografia, dei controlli degli accessi e dei framework di governance dei dati.
Per adottare con successo un approccio DaaP non basta avere l'hardware e il software giusti: come sempre, con i nuovi strumenti si incontra una certa resistenza al cambiamento. Le organizzazioni con una cultura ben radicata potrebbero opporsi ai cambiamenti relativi alla proprietà, condivisione e accessibilità dei dati introdotti dal DaaP. Strategie efficaci di gestione del cambiamento e una comunicazione chiara sono essenziali per garantire che i diversi reparti siano disposti e in grado di condividere i propri dati senza temere di perdere il controllo o il vantaggio competitivo. Promuovere la collaborazione e dimostrare i vantaggi del DaaP per tutti gli stakeholder e definire chiaramente ruoli e responsabilità nella governance dei dati e nella gestione del prodotto, per evitare confusione e inattività.
Le sfide legate all'aspetto umano per il successo di un’iniziativa DaaP non finiscono qui. Poiché il DaaP richiede che l'intera organizzazione presti attenzione ai dati, le organizzazioni possono riscontrare delle lacune con i dipendenti che non hanno competenze specifiche in materia di dati. I dipendenti di vari livelli potrebbero non comprendere appieno gli aspetti tecnici e il valore aziendale del DaaP; i programmi di formazione possono aiutare a colmare questa lacuna. Molti dipendenti potrebbero avere difficoltà ad analizzare ed estrarre insight dai prodotti DaaP, ma fornire strumenti intuitivi e promuovere l'alfabetizzazione dei dati può aiutarli. Inoltre, i team tecnici devono tradurre insight complessi sui dati in informazioni attuabili per gli stakeholder non tecnici.
Gestisci i dati come un prodotto durante il loro intero ciclo di vita. Gestisci il ciclo di vita dei prodotti di dati, dall'integrazione alla dismissione, con un solido sistema per il controllo delle versioni, la manutenzione e l'aggiornamento dei prodotti di dati.
Trasforma rapidamente i dati non elaborati in insight fruibili, unifica governance, qualità, lineage e condivisione dei dati e offri agli utenti dati affidabili e contestualizzati.
Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.
1 How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh, martinfowler.com, maggio 2019.
2 Mayo Clinic Platform expands its distributed data network to partner to globally transform patient care, mayoclinic.org, maggio 2023.
3 JPMorgan Chase using advanced AI to detect fraud, americanbanker.com, luglio 2023.
4 We Need People to Lean into the Future, hbr.org, marzo 2017.
5 AI-based data analytics enable business insight, technologyreview.com, dicembre 2022.