I fondamenti aziendali moderni, come il processo decisionale basato sui dati, l'analisi dei dati e l'intelligenza artificiale (AI), dipendono tutti dalla disponibilità di grandi quantità di dati di qualità. L'acquisizione di dati recupera i dati che rendono possibili queste decisioni e tecnologie informate. Sebbene il concetto possa sembrare semplice, l'acquisizione di dati può essere complessa, soprattutto nell'era dei big data.
I set di dati moderni sono enormi e complessi. Possono estendersi su terabyte o petabyte, sono disponibili in formati strutturati o non strutturati e risiedono su diverse fonti. Queste complessità introducono sfide relative alla gestione dei volumi di dati, alla governance e alla sicurezza durante l'intero processo di acquisizione.
Tuttavia, se eseguito in modo efficace, il processo di acquisizione dei dati può rappresentare una fonte di carburante di alta qualità per le iniziative strategiche. Di fatto, uno studio di Harvard Business Review ha rilevato che le organizzazioni che utilizzano con successo i big data e l'AI hanno superato i concorrenti nelle metriche aziendali chiave, tra cui efficienza operativa, aumento del fatturato ed esperienza del cliente.1
Il termine "acquisizione di dati" può anche riferirsi specificamente alla raccolta dei segnali fisici o elettrici che misurano le condizioni del mondo reale, in genere i dati dei sensori. Tra gli esempi rientrano le misurazioni della temperatura, della pressione e di altri fenomeni fisici.
Questi segnali vengono elaborati e convertiti in valori digitali fruibili utilizzando dispositivi per l'acquisizione di dati (dispositivi DAQ). Questo utilizzo è comune in campi come il monitoraggio ambientale, l'automazione industriale e la ricerca scientifica.
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Secondo l'US Geological Survey, esistono quattro metodi per acquisire dati: 2
La raccolta di dati implica la generazione di dati originali attraverso mezzi diretti come sondaggi, interviste, sensori o dispositivi Internet of Things (IoT). Le aziende utilizzano spesso questo approccio per ricerche di mercato o per il monitoraggio operativo.
Questo metodo si concentra sul recupero dei dati legacy di un'organizzazione e sulla loro conversione in un formato standardizzato e fruibile. Questo processo può variare da semplici conversioni di campi (come le date) a complesse normalizzazioni che potrebbero richiedere competenze avanzate in materia di data science.
Lo scambio di dati comporta il trasferimento di dati tra sistemi e organizzazioni. Può avvenire attraverso programmi governativi di open-data, scambi di dati urbani e provider di dati commerciali. I meccanismi tecnici dello scambio includono le application programming interface(API), i trasferimenti di file, le pipeline di streaming e le piattaforme basate sul cloud.
Le organizzazioni possono anche acquistare dati esterni dai data marketplace. Queste piattaforme colmano il divario tra acquirenti e venditori, offrendo disponibilità commerciale, accessibilità e benefici scalabili. I loro prodotti di dati, resi accurati e pronti all'uso, possono aiutare a ridurre il sovraccarico della raccolta dei dati.
Le organizzazioni possono raccogliere dati attraverso un numero apparentemente illimitato di fonti. I dati possono essere sia strutturati che non strutturati, interni o esterni. Alcune delle fonti di dati più comuni sono:
Le organizzazioni che acquisiscono dati devono tenere a mente diversi aspetti durante tutto il processo di acquisizione:
La privacy dei dati , nota anche come privacy delle informazioni, è l'idea che le persone dovrebbero avere il controllo sul modo in cui le organizzazioni raccolgono, memorizzano e utilizzano i propri dati personali. Durante l'acquisizione, le organizzazioni potrebbero raccogliere informazioni sugli utenti come indirizzi e-mail o dati di autenticazione biometrica. È essenziale che ottengano il consenso dell'utente prima di elaborare questi dati e che li proteggano dagli utilizzi impropri e forniscano agli utenti gli strumenti necessari per gestirli attivamente.
Molte aziende sono legalmente obbligate a seguire queste pratiche in base a normative come il Regolamento generale sulla protezione dei dati (GDPR). Tuttavia, anche senza leggi formali sulla privacy dei dati, vi sono dei benefici nell'implementazione di misure per la privacy dei dati. Spesso, le pratiche e gli strumenti che proteggono la privacy degli utenti aiutano anche a proteggere le informazioni digitali da accessi non autorizzati, corruzione o furto.
Garantire la qualità dei dati dovrebbe essere una priorità assoluta per le organizzazioni che acquisiscono dati da un'ampia gamma di fonti. La qualità dei dati si riferisce alla capacità di un set di dati di soddisfare i criteri di accuratezza, completezza, validità, coerenza, unicità, tempestività e rilevanza per lo scopo previsto. Dati di alta qualità supportano un processo decisionale accurato, equo ed efficace, in linea con gli obiettivi aziendali.
L'importanza del controllo della qualità dei dati va oltre le operazioni quotidiane. I dati di addestramento di alta qualità sono fondamentali per l'adozione efficace dell'intelligenza artificiale e dell'automazione. Tuttavia, vale il noto detto dell'AI "garbage in, garbage out", ovvero che dati di scarsa qualità in ogni caso d'uso portano a output di scarsa qualità.
Quando le organizzazioni acquisiscono set di dati da diverse fonti, dovranno risolvere eventuali problemi di compatibilità prima di caricarli nei loro sistemi. Le pratiche di standardizzazione e pulizia dei dati possono garantire che i dati aderiscano a un formato e a una struttura coerenti, facilitando la comprensione e l'analisi lungo la pipeline. Ad esempio, i nomi delle strade americane contengono solitamente indicazioni stradali, come North o West. La standardizzazione formatterebbe questi valori in "N" o "W".
Le organizzazioni in settori fortemente regolamentati (come la finanza o l'assistenza sanitaria) potrebbero trovarsi ad affrontare norme e regolamenti aggiuntivi sugli standard in materia di dati. L'Health Insurance Portability and Accountability Act (HIPAA), ad esempio, ha stabilito set di codici standard per diagnosi e procedure, dando vita a un linguaggio comune per i dati sanitari.
Prima di acquisire i dati, le organizzazioni devono determinare le proprie esigenze a livello di dati e se il costo per la loro acquisizione sia giustificato. Oltre ai costi relativi alla pulizia e alla standardizzazione dei dati, le aziende dovrebbero prendere in considerazione i prezzi, i costi di licenza (se applicabili) e gli eventuali costi aggiuntivi indicati nei contratti di acquisto.
L'acquisizione efficiente dei dati richiede anche una solida infrastruttura di dati in grado di gestire e memorizzare i dati. Le organizzazioni potrebbero dover investire in aree come data storage, analytics, sicurezza e governance per garantire che i dati acquisiti siano memorizzati, governati e utilizzati correttamente.
Sebbene siano spesso usate in modo intercambiabile, l'acquisizione e la raccolta di dati hanno significati distinti.
La raccolta di dati è il processo di raccolta di informazioni non elaborate direttamente da varie fonti, in genere eseguito da data scientist e analisti. Al contrario, l'acquisizione di dati è un termine più ampio che include la raccolta di dati. Implica tuttavia anche l'ottenimento di dati attraverso metodi aggiuntivi come partnership, accordi di licenza, acquisto di dati e trasformazione dei dati legacy.
Secondo il 72% dei CEO con le migliori prestazioni, ottenere un vantaggio competitivo dipende dal possesso dell'AI generativa più avanzata. Tuttavia, anche gli algoritmi di machine learning più sofisticati sono efficaci solo nella misura in cui lo sono i dati su cui vengono addestrati. I dati di alta qualità sono essenziali affinché i sistemi di AI apprendano, si adattino e forniscano un valore reale.
Nella pratica, tuttavia, acquisire abbastanza dati pertinenti per addestrare i modelli AI può essere difficile. I problemi di privacy, i costi elevati e i vincoli legali o normativi possono limitare l'accesso a metodi e fonti di acquisizione di dati preziosi, come il web scraping o i set di dati pubblici. In alcuni casi, le normative possono vietare del tutto la raccolta di tipi specifici di dati per i casi d'uso dell'AI.
Per alleviare questi ostacoli, molte organizzazioni si rivolgono ai dati sintetici, ovvero dati generati artificialmente che imitano i dati del mondo reale. Creati utilizzando metodologie statistiche o tecnologie avanzate di intelligenza artificiale, come il deep learning e l'AI generativa, i dati sintetici offrono diversi vantaggi: maggiore personalizzazione, acquisizione più efficiente, maggiore privacy dei dati e dati complessivamente più ricchi.
Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.
Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.
1 “Big on data: Study shows why data-driven companies are more profitable than their peers,” Harvard Business Review study conducted for Google Cloud, 24 marzo 2023.
2 “Data Acquisition Methods,” The US Geological Survey.