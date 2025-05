Quando le aziende hanno iniziato a investire in tecnologie avanzate di storage per rendere i dati ampiamente accessibili e utilizzabili per generare insight e automatizzare le decisioni, i data engineer hanno dovuto affrontare diverse sfide perché le soluzioni non erano scalabili come previsto. Poiché i dati erano spesso pieni di errori, incompleti e non significativi o inattendibili—, e poiché gli ingegneri avevano una conoscenza molto limitata dei domini di origine che li avevano generati, facevano fatica a correggere ciò che non conoscevano o non comprendevano.

I data engineer hanno avvertito la necessità di cambiare il proprio approccio alla progettazione di architetture distribuite moderne. Hanno riconosciuto l'importanza di adottare una nuova metodologia che organizzi l'architettura intorno ai domini di business specifici che mira a supportare. Questo approccio integra il product thinking per sviluppare un’infrastruttura dati self-service funzionale e facile da usare.1

Il product thinking va oltre le semplici caratteristiche di un prodotto: si tratta di creare soluzioni significative, che rispondano ai bisogni degli utenti e si distinguano sul mercato. È una filosofia che influenza ogni fase del processo di sviluppo del prodotto, dall'ideazione al lancio fino all'iterazione. Gli ingegneri si sono resi conto che trattando i dati come un prodotto, potevano migliorarne notevolmente l'uso e il valore all'interno dell'organizzazione.

Nell'adozione di un approccio che tratta i set di dati come prodotti, vengono creati team di dominio all'interno di specifiche aree aziendali affinché si occupino della gestione e della diffusione dei dati all'interno dell'organizzazione, per mettere al centro l'esperienza utente dei principali utilizzatori di questi dati, ovvero data scientist e ingegneri.

Questi team di dominio condividono i propri dati tramite application programming interface (API), accompagnate da una documentazione completa, ambienti di test affidabili e indicatori di prestazioni chiari.

Un DaaP di successo deve soddisfare i seguenti requisiti:

Facilmente individuabile Raggiungibile Affidabile Ben documentato In grado di integrarsi con altri prodotti di dati Proteggi

Ciò significa che in una metodologia DaaP, i dati devono essere facili da individuare, affidabili, chiari in ciò che rappresentano, integrabili con altri dati e protetti da accessi non autorizzati.

Possiamo immaginare il DaaP come un viaggio aereo e ogni dato come un passeggero: organizzazioni e utenti devono sapere da dove proviene ogni singolo dato, quali trasformazioni ha subito e dove è destinato ad arrivare. Questo si chiama data lineage ed è un elemento cruciale per un'efficace adozione del DaaP. Utilizzando strumenti come IBM InfoSphere, AWS Glue o Cloudera Data Hub, le organizzazioni possono gestire i metadati e tracciare i percorsi dei dati per garantire trasparenza ed evitare confusione.

Una volta che ogni viaggiatore è stato opportunamente controllato, sale a bordo dell'aereo. Così come la compagnia aerea deve garantire che l'aereo sia abbastanza grande e robusto da sostenere i passeggeri, le organizzazioni devono utilizzare un'infrastruttura scalabile per soddisfare i crescenti volumi di dati e le numerose richieste di accesso. A seconda delle esigenze aziendali specifiche di un'organizzazione e dei segmenti di mercato, ci sono diverse piattaforme basate sul cloud, soluzioni open source e piattaforme commerciali tra cui le organizzazioni possono scegliere.

Ora, immaginiamo di aver bisogno di informazioni su un volo, ma il sistema non funziona. Questo compromette la fiducia dei viaggiatori e fa apparire la compagnia aerea come inaffidabile e inefficace. Ed è proprio per questo che gli strumenti DaaP devono essere sempre efficienti. È anche il motivo per cui le organizzazioni devono fornire piani e report chiari sul ripristino e la ridondanza dei dati.

Non esiste viaggio aereo senza sicurezza e lo stesso vale per il DaaP. Funzionalità di sicurezza come il controllo degli accessi basato sui ruoli, la crittografia dei dati e i sistemi di rilevamento delle intrusioni proteggono i dati sensibili e garantiscono la conformità a normative quali GDPR e HIPAA. Le pratiche di governance, tra cui il monitoraggio della qualità dei dati, la catalogazione e la gestione del cambiamento, garantiscono che i dati dell'organizzazione siano affidabili e accessibili.