Che cos'è una piattaforma dati?

 

 

Autori

Matthew Kosinski

Enterprise Technology Writer

Che cos'è una piattaforma dati?

Una piattaforma dati è una soluzione tecnologica che consente la raccolta, lo storage, la pulizia, la trasformazione, l'analisi e la governance dei dati. Le piattaforme dati possono includere sia componenti hardware che software. Consentono alle organizzazioni di utilizzare più facilmente i propri dati per migliorare i processi decisionali e le operazioni.

Oggi, molte organizzazioni si affidano a pipeline di dati complesse per supportare l'analisi dei dati, la scienza dei dati e le decisioni basate sui dati. Una piattaforma dati moderna fornisce gli strumenti di cui le organizzazioni hanno bisogno per salvaguardare la qualità dei dati e sbloccare il valore dei loro dati. 

In particolare, le piattaforme di dati possono aiutare a far emergere insight fruibili, ridurre i silo di dati, abilitare l'analisi self-service, semplificare l'automazione e potenziare le applicazioni di intelligenza artificiale (AI).

Una piattaforma dati, nota anche come "data stack", è composta da cinque livelli fondazionali: storage ed elaborazione dati, data ingestiontrasformazione dei datibusiness intelligence (BI) e analytics e osservabilità dei dati.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Tipi di piattaforme di dati

Le piattaforme dati possono essere costruite e configurate per servire funzioni aziendali specifiche. Alcuni dei tipi di piattaforme dati più comuni includono:

  • Piattaforma dati enterprise (EDP)
  • Piattaforma big data (BDP)
  • Piattaforma di dati cloud (CDP)
  • Piattaforma dati clienti (CDP)

Piattaforma dati enterprise (EDP)

Le piattaforme di dati aziendali sono state originariamente sviluppate per avere funzione di repository centrali per rendere i dati più accessibili in tutta l'organizzazione. Queste piattaforme in genere ospitavano i dati on-premise, nei database operativi o nei data warehouse. Spesso gestivano dati strutturati relativi a clienti, finanza e supply chain.

Le moderne piattaforme dati odierne ampliano le funzionalità delle tradizionali piattaforme dati aziendali per garantire che i dati siano accurati e tempestivi, ridurre i silo di dati e abilitare il self-service. Le piattaforme dati moderne sono spesso basate su una suite di software cloud-native, che supporta una maggiore flessibilità ed economicità.

I due principi fondamentali che regolano le piattaforme dati aziendali sono:

  • Disponibilità: i dati sono facilmente disponibili in un data lake, data warehouse o data lakehouse, che separano storage ed elaborazione. La suddivisione di queste funzioni consente di archiviare grandi quantità di dati a costi relativamente bassi.

  • Elasticità: le funzioni di calcolo sono basate sul cloud, il che consente l'auto scalabilità. Ad esempio, se la maggior parte dei dati e delle analisi vengono utilizzati in un certo giorno e a una certa ora, l'elaborazione può essere scalata automaticamente per migliorare l'esperienza del cliente e ridimensionata quando le esigenze di workload diminuiscono.

Piattaforma big data (BDP)

Una piattaforma big data è progettata per raccogliere, elaborare e memorizzare grandi volumi di dati, spesso in tempo reale. Dati gli enormi volumi di dati gestiti, le piattaforme big data utilizzano spesso il computing distribuito, con i dati sparsi su molti server.

Anche altri tipi di piattaforme dati potrebbero gestire grandi volumi di dati, ma una piattaforma big data è appositamente progettata per elaborare tali dati ad alta velocità. Una BDP di livello aziendale è in grado di eseguire query complesse su set di dati di grandi dimensioni, strutturati, semi strutturati o non strutturati. Gli usi tipici della BDP includono l'analisi big data, il rilevamento delle frodi, l'analisi predittiva e i sistemi di raccomandazione.

Le piattaforme big data sono spesso disponibili come prodotti software-as-a-service (SaaS), come parte di un'offerta data as a service (DaaS) o in una suite di cloud computing.

Piattaforma di dati cloud (CDP)

Come suggerisce il nome, la funzione distintiva di una piattaforma di dati cloud è che è basata sul cloud, il che può offrire numerosi vantaggi:

  • Una piattaforma di dati cloud è spesso disponibile con un pagamento a consumo.
  • Lo spazio di storage totale è flessibile e può essere aumentato o ridotto in base alle esigenze.
  • Il personale non è necessario per mantenere una piattaforma hardware on-premise.
  • Una piattaforma di dati cloud può ospitare piattaforme per big data, dati aziendali o dati dei clienti.
  • Numerosi CDP offrono funzionalità supplementari come analisi avanzata, strumenti di apprendimento automatico (ML) e visualizzazione.

Piattaforma dati clienti (CDP)

Una piattaforma dati clienti raccoglie e unifica i dati dei clienti da più fonti per costruire una visione unica, coerente e completa di ogni cliente.  

L'input per la CDP potrebbe essere ricevuto dal sistema di gestione delle relazioni con il cliente (CRM) di un'organizzazione, dall'attività sui social media, dai punti di contatto con l'organizzazione, dai sistemi transazionali o dall'analisi del sito web.

Una visione unificata a 360 gradi dei clienti può fornire a un'organizzazione una visione più approfondita del loro comportamento e delle loro preferenze, consentendo un marketing più mirato, migliori esperienze per l'utente e nuove opportunità di guadagno.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Livelli in una piattaforma dati

Le piattaforme dati possono essere di tutte le forme e dimensioni, a seconda delle esigenze dell'organizzazione. Una piattaforma tipica include almeno questi cinque livelli:

  1. Data storage
  2. Ingestione di dati
  3. Trasformazione dei dati
  4. Business intelligence e analytics
  5. Osservabilità dei dati

1. Data storage

Il primo livello in molte piattaforme dati è quello di data storage. Il tipo di storage dati utilizzato dipende dalle esigenze dell'organizzazione e può includere sia l'archiviazione on-premise che quella sul cloud. I comuni storage dei dati includono:

Data warehouse

Un data warehouse—o enterprise data warehouse (EDW)—aggrega i dati provenienti da diverse origini in un unico storage dei dati centrale e coerente per supportare l'analisi dei dati, il data mining, l'intelligenza artificiale (AI) e l'apprendimento automatico. I data warehouse vengono solitamente utilizzati per gestire dati strutturati con casi d'uso analitici definiti in modo chiaro.

Data lake

Un data lake è un ambiente di storage a basso costo, che in genere contiene petabyte di dati non elaborati. Un data lake può memorizzare dati strutturati e non strutturati in vari formati, consentendo ai ricercatori di lavorare più facilmente con un'ampia gamma di dati.

I data lake erano spesso originariamente creati nell'ecosistema Hadoop, un progetto open source basato su NoSQL. A partire dal 2015 circa, molti data lake hanno iniziato a spostarsi sul cloud. Una tipica architettura di data lake ora potrebbe memorizzare i dati su una piattaforma di object storage, come Amazon S3 di Amazon Web Services (AWS) e utilizzare uno strumento come Spark per elaborare i dati.

Data lakehouse

Un data lakehouse combina le capacità dei data warehouse e dei data lake in una singola soluzione di gestione dei dati.

Sebbene i data warehouse offrano migliori prestazioni rispetto ai data lake, spesso sono più costosi e la loro abilità di scalare è limitata. I data lake ottimizzano i costi di storage ma non dispongono della struttura necessaria per analisi utili.

Un data lakehouse è progettato per affrontare queste sfide utilizzando il cloud object storage per archiviare una gamma più ampia di tipi di dati, ovvero dati strutturati, dati non strutturati e dati semi strutturati. Un'architettura data lakehouse combina questo storage con strumenti per supportare sforzi di analytics avanzati, come business intelligence e machine learning.

2. Data ingestion

Il processo di raccolta dei dati da varie fonti e di spostamento dei dati in un sistema di archiviazione si chiama data ingestion. Una volta acquisiti, i dati possono essere utilizzati per scopi di archiviazione o per ulteriori elaborazioni e analisi.

L'efficacia dell'infrastruttura dati di un'organizzazione dipende in gran parte dal modo in cui i dati vengono acquisiti e integrati. Se si verificano problemi durante l'ingestion, come set di dati mancanti o obsoleti, ogni fase dei workflow analitici a valle potrebbe risentirne.

L'ingestion può utilizzare diversi modelli di trattamento dei dati, a seconda delle esigenze di un'organizzazione e della sua architettura dati complessiva.

  • L'elaborazione in batch è la forma più comune di data ingestion. Non elabora i dati in tempo reale, ma raccoglie e raggruppa i dati in batch, che vengono poi inviati allo storage. L'elaborazione in batch potrebbe essere avviata utilizzando una semplice pianificazione o attivata quando esistono determinate condizioni predeterminate. Viene in genere utilizzata quando i dati in tempo reale non sono necessari, perché richiede meno lavoro ed è meno costosa dell'elaborazione in tempo reale.
     
  • L'elaborazione in tempo reale, chiamata anche streaming o elaborazione streaming, non raggruppa i dati. Invece, i dati vengono ottenuti, trasformati e caricati man mano che vengono riconosciuti. L'elaborazione in tempo reale è più costosa perché richiede un monitoraggio costante delle origini dati.

3. Trasformazione dei dati

Il terzo livello, la trasformazione dei dati, si occupa della modifica della struttura e del formato dei dati per renderli utilizzabili per l'analytics dei dati e altri progetti. Ad esempio, i dati non strutturati possono essere convertiti in un formato SQL per facilitare la ricerca. I dati possono essere trasformati prima o dopo l'arrivo alla destinazione di storage.

Fino a poco tempo fa, la maggior parte dei modelli di data ingestion utilizzava una procedura di estrazione, trasformazione, caricamento (ETL) per prelevare i dati dall'origine, riformattarli e trasportarli a destinazione. Questo ha senso quando le aziende utilizzano sistemi di analytics interni. Effettuare il lavoro di preparazione prima di consegnare i dati alla loro destinazione può contribuire a ridurre i costi. Le organizzazioni che utilizzano ancora data warehouse on-premise utilizzano normalmente un processo ETL.

Tuttavia, numerose organizzazioni oggi preferiscono i data warehouse basati sul cloud, come IBM Db2 Warehouse, Microsoft Azure, Snowflake o BigQuery di Google Cloud. La scalabilità del cloud consente alle organizzazioni di utilizzare un modello di estrazione, caricamento, trasformazione (ELT), che aggira le trasformazioni di precaricamento per inviare più rapidamente i dati non elaborati direttamente al data warehouse. I dati vengono quindi trasformati in base alle esigenze, in genere quando si esegue una query.

4. Business intelligence e analytics

Il quarto livello della piattaforma dati include strumenti di business intelligence (BI) e analytics che consentono agli utenti di utilizzare i dati per le attività di analisi aziendale e di big data analytics. Ad esempio, gli strumenti di BI e analytics potrebbero consentire agli utenti di interrogare i dati, trasformarli in visualizzazioni o manipolarli in altro modo.

Per molti reparti di un'organizzazione, questo livello è il volto della piattaforma dati, in cui gli utenti interagiscono direttamente con i dati.

I ricercatori e i data scientist possono lavorare con i dati per ricavare insight e intelligenza attuabili. I dipartimenti di marketing potrebbero utilizzare strumenti di BI e analytics per ottenere maggiori informazioni sui propri clienti e scoprire iniziative preziose. I team della supply chain potrebbero utilizzare gli insight dell'analisi dei dati per semplificare i processi o trovare fornitori superiori.

L'utilizzo di questo livello è il motivo principale per cui le organizzazioni raccolgono dati in primo luogo.

5. Osservabilità dei dati

L'osservabilità dei dati è la pratica di monitorare, gestire e mantenere i dati per promuoverne la qualità, la disponibilità e l'affidabilità. L'osservabilità dei dati ricopre diverse attività e tecnologie, tra cui il tracciamento, la registrazione, gli avvisi e il rilevamento delle anomalie.

Queste attività, se combinate e visualizzate in una dashboard, consentono agli utenti di identificare e risolvere le difficoltà dei dati quasi in tempo reale. Ad esempio, il livello di osservabilità aiuta i team di data engineering a rispondere a domande specifiche su ciò che avviene dietro le quinte nei sistemi distribuiti. Può mostrare il flusso dei dati attraverso il sistema, dove i dati si muovono lentamente e cosa non funziona.

Gli strumenti di osservabilità possono anche avvisare i manager, i team di dati e gli stakeholder di potenziali problemi, in modo che possano affrontarli in modo proattivo.

Livelli aggiuntivi della piattaforma dati

Oltre ai cinque livelli di fondazione di cui abbiamo parlato, gli altri livelli comuni in uno stack di dati moderno includono:

Rilevamento dati

 

I dati non accessibili sono dati inutili. La data discovery aiuta a garantire che i dati non rimangano nascosti. In particolare, la data discovery consiste nella raccolta, valutazione ed esplorazione di dati provenienti da fonti eterogenee, con l'obiettivo di riunire dati provenienti da fonti isolate o precedentemente sconosciute per l'analisi.

Governance dei dati

 

Le piattaforme dati moderne sottolineano spesso la governance e la sicurezza dei dati per proteggere le informazioni sensibili, promuovere la conformità normativa, facilitare l'accesso e gestire la qualità dei dati. Gli strumenti che supportano questo livello includono controlli di accesso, crittografia, auditing e tracciamento della data lineage.

Catalogazione dati e gestione dei metadati

 

I cataloghi di dati utilizzano i metadati, dati che descrivono o riepilogano i dati, per creare un inventario informativo e ricercabile di tutti gli asset di dati di un'organizzazione. Ad esempio, un catalogo di dati può aiutare le persone a individuare più rapidamente i dati non strutturati, inclusi documenti, immagini, audio, video e visualizzazione dei dati.

Machine learning e AI

 

Alcune piattaforme di dati di livello aziendale incorporano funzionalità di machine learning e AI per aiutare gli utenti a estrarre insight preziosi dai dati. Ad esempio, le piattaforme potrebbero essere dotate di algoritmi di analytics predittiva, di modelli di machine learning per il rilevamento delle anomalie e di insight automatizzati alimentati da strumenti di AI generativa.

Perché le piattaforme dati sono importanti

Una solida piattaforma dati può aiutare un'organizzazione a ottenere più valore dai propri dati consentendo un maggiore controllo sui dati da parte del personale tecnico e un self-service più rapido per gli utenti quotidiani.

Le piattaforme dati possono aiutare ad abbattere i silos di dati, uno dei maggiori ostacoli all'usabilità dei dati. I reparti separati, come le risorse umane, la produzione e la supply chain, potrebbero mantenere dati separati in ambienti separati, creando incongruenze e sovrapposizioni. Quando i dati sono unificati su una piattaforma dati, creano una singola fonte affidabile (SSoT) a livello di organizzazione.

L'analisi e le decisioni aziendali possono essere migliorate rimuovendo i silo e migliorando l'integrazione dei dati. In questo modo, le piattaforme di dati sono componenti chiave di un robusto Data Fabric, che aiuta i responsabili delle decisioni a ottenere una visione coesa dei dati organizzativi. Questa visione coesa può aiutare le organizzazioni a tracciare nuove relazioni tra i dati e a sfruttare i big data per il data mining e l'analytics predittiva.

Una piattaforma dati può anche consentire a un'organizzazione di studiare i processi di dati end-to-end e trovare nuove efficienze. Una piattaforma dati di livello aziendale può anche accelerare l'accesso alle informazioni, il che può aumentare l'efficienza sia per il processo decisionale interno che per gli sforzi rivolti ai clienti. 

Infine, una piattaforma dati ben gestita può offrire uno storage dei dati diversificato e ridondante, migliorando la resilienza organizzativa di fronte agli attacchi informatici o ai disastri naturali.

Soluzioni correlate
Software e soluzioni per la gestione dei dati

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati
IBM watsonx.data™

Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data