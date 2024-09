Il primo livello di fondazione di una piattaforma dati moderna è costituito da storage ed elaborazione.

I data storage moderni si concentrano sull'utilizzo efficiente dei dati, che include posizione di memorizzazione e modalità di elaborazione. I due formati di storage più diffusi sono i data warehouse e i data lake, sebbene i data lakehouse e i data mesh stiano acquisendo popolarità.



Il data warehouse



I data warehouse sono progettati per gestire dati strutturati con casi d'uso chiari e definiti.



L'uso dei data warehouse può essere fatto risalire agli anni '90, quando i database venivano utilizzati per archiviare i dati. Questi data warehouse erano locali e avevano una capacità di archiviazione molto limitata.



Intorno al 2013, i data warehouse hanno iniziato a spostarsi nel cloud, dove la scalabilità è diventata improvvisamente possibile. I data warehouse basati sul cloud sono rimasti il sistema di archiviazione dati preferito perché ottimizzano la potenza di calcolo e le velocità di elaborazione.



Affinché un data warehouse funzioni correttamente, i dati devono essere raccolti, riformattati, puliti e caricati nel warehouse. Tutti i dati che non possono essere riformattati potrebbero andare persi.



Il data lake



Nel gennaio del 2008, Yahoo ha rilasciato Hadoop (basato su NoSQL) come progetto open source per Apache Software Foundation. I data lake erano originariamente basati su Hadoop, erano scalabili e progettati per l'uso on-premise. Purtroppo, l'ecosistema Hadoop è estremamente complesso e difficile da usare. I data lake hanno iniziato a spostarsi sul cloud intorno al 2015 e questo li ha resi molto meno costosi e più facili da usare.



I data lake sono stati originariamente progettati per raccogliere dati grezzi e non strutturati senza imporre schemi (formati) in modo che i ricercatori potessero ottenere maggiori insight da un'ampia gamma di dati. A causa di problemi con l'analisi di informazioni vecchie, imprecise o inutili, i data lake possono diventare "paludi di dati" meno efficaci.



Un'architettura tipica del data lake potrebbe avere dati memorizzati in un Object Storage come Amazon S3 di AWS, in abbinamento a uno strumento come Spark per elaborarli.



Il data lakehouse



I data lakehouse uniscono la flessibilità, l'efficienza dei costi e le capacità di scalabilità dei data lake con le transazioni ACID (atomicità, coerenza, isolamento e durabilità) e le funzioni di gestione dei dati dei data warehouse. (ACID è un acronimo della serie di 4 proprietà chiave che definiscono una transazione: atomicità, coerenza, isolamento e durabilità).

I data lakehouse supportano la BI e il machine learning, mentre un punto di forza dei data lakehouse è l'utilizzo di livelli di metadati. I data lakehouse utilizzano anche un nuovo motore di query, progettato per ricerche SQL ad alte prestazioni.



Rete di dati



A differenza dei data warehouse, dei data lake e dei data lakehouse, il data mesh decentralizza la proprietà dei dati. Con questo modello architetturale, un dominio specifico (ad esempio, un business partner o un reparto) non possiede i propri dati, ma li condivide liberamente con altri domini. Ciò significa che tutti i dati all'interno del sistema di data mesh devono mantenere un formato uniforme.



I sistemi data mesh possono essere utili per le aziende che supportano più domini di dati. All'interno della progettazione della rete di dati, sono presenti un livello di governance dei dati e un livello di osservabilità. Esiste anche un livello di interoperabilità universale.



La mesh di dati può essere utile per le organizzazioni in rapida espansione e che necessitano di scalabilità per l'archiviazione dei dati.