Cosa sono i dati non strutturati?

Fotografia aerea di una folla che attraversa una strada

Autori

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Cosa sono i dati non strutturati?

I dati non strutturati sono informazioni che non hanno un formato predefinito. I set di dati non strutturati sono enormi, spesso interi terabyte o petabyte di dati, e contengono il 90% e di tutti i dati generati dalle aziende.

La proliferazione dei dati non strutturati è dovuta alle diverse e vaste fonti di dati, tra cui documenti di testo, social media, file di immagini e audio, messaggi istantanei e dispositivi intelligenti. Quasi tutti i nuovi dati generati oggi non sono strutturati: ogni messaggio inviato, foto caricata o sensore attivato si aggiunge al volume.

A differenza dei dati strutturati (che hanno un modello di dati predefinito), quelli non strutturati non si conformano facilmente agli schemi fissi dei database convenzionali. I dati non strutturati vengono spesso memorizzati in file system, database non relazionali (o NoSQL databases) o in data lake.

La complessità dei dati non strutturati e la struttura non uniforme dei dati richiedono inoltre metodi di analisi più sofisticati. Tecnologie come il machine learning (ML) e l'elaborazione del linguaggio naturale (NLP) vengono comunemente utilizzate per estrarre insight da set di dati non strutturati.

Fino a poco tempo fa, i dati non strutturati erano considerati dati oscuri. Le sfide dei dati non strutturati (ovvero la loro quantità e la mancanza di uniformità) li hanno resi inutilizzabili per molti casi d'uso aziendali. 

Oggi, tuttavia, le aziende con molti dati non strutturati possiedono una risorsa strategica significativa. Quando vengono combinati, i dati strutturati e quelli non strutturati forniscono una visione completa dei dati in tutta l'azienda. Specialmente in questo momento attuale, i dati non strutturati possono anche aiutare le aziende a sbloccare tutto il potenziale dell'AI generativa (gen AI).

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Quali sono gli esempi di dati non strutturati?

La maggior parte dei dati non strutturati è di tipo testuale: messaggi e-mail, documenti Word, PDF, blog e post sui social media. I dati non strutturati comprendono anche le trascrizioni delle chiamate e i file di testo dei messaggi, come quelli di Microsoft Teams o Slack.

Tuttavia, possono anche essere non testuali. Alcuni esempi comuni di dati non strutturati non testuali includono file di immagine (come JPEG, GIF e PNG), file multimediali, file video, attività sui dispositivi mobili e dati dei sensori provenienti da dispositivi Internet of Things (IoT).

Dati non strutturati, strutturati e semi-strutturati

I dati vengono spesso classificati come strutturati, non strutturati o semi-strutturati in base al loro formato e alle regole dello schema. Come suggerisce il nome, i dati semi-strutturati condividono attributi sia dei dati strutturati che di quelli non strutturati. Ecco una breve panoramica di ciascun tipo di dati:

 Dati strutturati

  • Hanno uno schema chiaro e predefinito
  • Si adattano perfettamente a righe e colonne, come quelle dei fogli di calcolo Excel o in un sistema di gestione di database relazionali (RDBMS)
  • Tra gli esempi troviamo numeri di telefono, tag SEO e dati dei clienti

Dati non strutturati

  • Non dispongono di uno schema predefinito
  • Non sono conformi alla struttura rigida di un database relazionale tradizionale.
  • Tra gli esempi troviamo testo da pagine web, trascrizioni di chiamate e file multimediali

Dati semi-strutturati

  • Non dispone di uno schema predefinito, ma contiene metadati, come tag e marcatori semantici, che consentono l'indicizzazione e l'analisi
  • Non sono conformi alla struttura rigida di un database relazionale tradizionale.
  • Alcuno esempi includono file JavaScript Object Notation (JSON), CSV e eXtensible Markup Language (XML)

Perché i dati non strutturati sono importanti?

I dati non strutturati rappresentano la percentuale maggiore di tutti i dati generati in un'azienda. Sono diversificati, flessibili e ricchi di insight, alcuni dei quali potrebbero non esistere nei set di dati strutturati. Sebbene i dati strutturati siano comunque preziosissimi, la maggior parte delle aziende oggi dispone di vaste quantità di dati non strutturati che rimangono in gran parte inutilizzati.

I dati non strutturati (sotto forma di dati proprietari pubblici e interni) sono fondamentali anche per l'AI moderna, perché possono essere utilizzati per addestrare modelli AI e migliorarne le prestazioni.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Quali sono i casi d'uso dei dati non strutturati?

 Con gli strumenti giusti, i dati non strutturati possono fornire un'ampia varietà di casi d'uso, come:

AI generativa (gen AI)

L'AI generativa si basa su modelli di deep learning che identificano e codificano i modelli e le relazioni in enormi quantità di dati. I dati non strutturati, solitamente provenienti da internet, sono adatti a fornire il volume elevatissimo di dati ricchi e non etichettati necessari per l'addestramento.

Retrieval Augmented Generation (RAG)

La RAG è un'architettura realizzata per ottimizzare le prestazioni di un modello di gen AI dandogli accesso a basi di conoscenza esterne aggiuntive, come i dati non strutturati di un'organizzazione. Questo processo aiuta ad adattare i modelli ai casi d'uso specifici del dominio in modo che possano fornire risposte migliori.

Analisi del sentiment e del comportamento dei clienti

L'analisi del sentiment analizza grandi volumi di testo per determinare se esprimono un sentimento positivo, negativo o neutro. Come strumento per comprendere il comportamento dei clienti, l'analisi del sentiment utilizza la vasta gamma di dati testuali non strutturati generati dai clienti attraverso i canali digitali.

Analytics predittiva dei dati

Le aziende utilizzano l'analytics predittiva per prevedere i risultati futuri e identificare rischi e opportunità utilizzando dati storici. Ad esempio, un'organizzazione potrebbe estrarre le cartelle cliniche (dati di testo non strutturati) per sapere come è stata diagnosticata e trattata una malattia specifica e creare un modello predittivo basato sui risultati.

Analisi del testo dei chatbot

Un chatbot di livello aziendale può analizzare ed estrarre insight dai dati di testo non strutturati nelle sue conversazioni con clienti o dipendenti. In genere, l'analisi viene eseguita utilizzando tecniche come l'elaborazione del linguaggio naturale (NLP) e il machine learning. Gli insight ottenuti dai dati di testo analizzati possono aiutare a informare il comportamento dei clienti e a migliorare le prestazioni dei chatbot.

Dati non strutturati per l'AI: un'analisi approfondita

I casi d'uso relativi all'intelligenza artificiale per i dati non strutturati sono sempre più un punto focale per le aziende che abbracciano l'innovazione dell'AI. Prendiamo in considerazione la gen AI, la tecnologia alla base di ChatGPT e di altre app di intelligenza artificiale virali. Si parte da un foundation model, solitamente un modello linguistico di grandi dimensioni (LLM).

La creazione di un foundation model implica l'addestramento di un algoritmo di deep learning su enormi volumi di dati non strutturati, solitamente provenienti da internet. Questi dati non strutturati sono ricchi e diversificati, e insegnano ai modelli AI il contesto e le sfumature. 

Tuttavia, i dati di addestramento non strutturati possono essere piuttosto generici, invece che specifici di un dominio o di un'organizzazione, e potenzialmente obsoleti. Il modello finale potrebbe avere difficoltà a rispondere ai prompt che richiedono risposte specifiche per il dominio.

Per affrontare tali sfide, le organizzazioni possono adattare un modello pre-addestrato a un caso d'uso o a un'attività specifica in diversi modi. Un metodo, la messa a punto, personalizza un modello di base addestrandolo su un set di dati più piccolo e specifico per le attività. Richiede dati strutturati di alta qualità, spesso dati proprietari o conoscenze specializzate e specifiche del dominio.

Tuttavia, un metodo diverso, la retrieval-augmented generation (RAG), può incorporare dati non strutturati. Mentre gli LLM in genere traggono informazioni dai dati di addestramento, il RAG aggiunge un componente al workflow dell'AI, raccogliendo dati pertinenti e passandoli al modello per migliorare la qualità della risposta. Questi dati possono includere dei set di dati interni, non strutturati.

Rispetto alla messa a punto, la RAG garantisce risultati più tempestivi e accurati, poiché recupera costantemente le informazioni più recenti durante la generazione delle risposte. Trasforma le iniziative di AI, rendendole da congelate nel tempo e generiche a personalizzate, pertinenti e di impatto.

Come i dati strutturati, anche i dati non strutturati richiedono una governance e una gestione dei dati adeguate prima di essere utilizzati per l'AI. È necessario classificarli, valutarne la qualità, filtrare le informazioni personali identificabili (PII) e deduplicarli.

Con gli strumenti giusti e con l'aiuto dell'AI, le aziende possono trasformare i propri dati non strutturati e renderli utilizzabili. Sapere come creare ordine in modo efficace nel caos dei dati oggi è un fattore di differenziazione competitiva e un catalizzatore per la gen AI in ambito aziendale.

Come vengono utilizzati i dati non strutturati?

I dati non strutturati solitamente vengono memorizzati nel formato nativo, il che amplia le opzioni di memorizzazione. Alcuni ambienti di data storage comuni per i dati non strutturati includono:

Object storage

Object storage (o archiviazione basata su oggetti) memorizza i dati come oggetti, un repository semplice e autonomo che include dati, metadati e un numero identificativo univoco. Questa architettura è ideale per memorizzare, archiviare, eseguire il backup e gestire grandi volumi di dati non strutturati. L'object storage basato su cloud viene spesso utilizzato per ottimizzare i costi di storage e l'utilizzo dei dati nei workload AI.

Data lake

I data lake sono ambienti di data storage progettati per gestire grandi quantità di dati non elaborati in qualsiasi formato di dati, in particolare il flusso di big data creato da app e servizi connessi a internet. Utilizzano il cloud computing per rendere il data storage più scalabile e conveniente. E, solitamente, i data lake utilizzano l'object storage basato sul cloud, come Azure Blob Storage, Google Cloud Storage o IBM® Cloud Object Storage.

Data lakehouse

I data lakehouse sono considerati la nuova evoluzione della gestione dei dati, che combina le parti migliori dei data lake e dei data warehouse. Offrono uno storage veloce e a basso costo con la flessibilità necessaria per supportare l'analytics dei dati e i workload di AI/ML. I data lakehouse supportano anche data ingestion in tempo reale, fondamentale per le applicazioni di AI necessarie per creare un processo decisionale in tempo reale.

Database NoSQL

Structured Query Language (SQL) è un linguaggio di programmazione standardizzato e specifico del dominio utilizzato per memorizzare, manipolare e recuperare i dati. Un database NoSQL, o non-SQL, è progettato per memorizzare dati al di fuori delle tradizionali strutture di database SQL senza uno schema. I database NoSQL forniscono la velocità e la scalabilità necessarie per gestire set di dati non strutturati di grandi dimensioni. Alcuni esempi sono MongoDB, Redis e HBase.

Quali sono gli strumenti per il trattamento dei dati non strutturati?

Una volta memorizzati, i dati non strutturati spesso richiedono un'elaborazione per essere utilizzati efficacemente per casi d'uso a valle, come la business intelligence o l'analisi dei dati non strutturati.

Alcune organizzazioni utilizzano framework open source per elaborare i set di dati non strutturati di grandi dimensioni. Ad esempio, Apache Hadoop è spesso integrato nelle architetture dei data lake per consentire l'elaborazione in batch di dati non strutturati e semi-strutturati (come lo streaming audio e il sentiment sui social media). Apache Spark è un altro framework open source per il trattamento dei dati. Spark perà utilizza l'elaborazione in memoria ed è velocissimo, il che lo rende più adatto per il machine learning e le applicazioni di AI.

Esistono anche moderne piattaforme di integrazione dei dati appositamente progettate per gestire dati strutturati e non strutturati. Questi strumenti di integrazione multiuso inseriscono automaticamente i dati non elaborati, li organizzano e poi spostano i dati elaborati nei database di destinazione. Queste caratteristiche riducono notevolmente il lungo lavoro manuale dei team di data science incaricati di preparare dati grezzi e dati non strutturati per l'AI.

Tecnologia per l'analisi dei dati non strutturati

Esistono vari strumenti e tecnologie che le organizzazioni possono utilizzare per scoprire insight dai propri dati non strutturati.

AI analytics

Gli strumenti di analytics AI si basano sulla capacità dell'AI di elaborare rapidamente grandi volumi di dati, il che è fondamentale per le organizzazioni che vogliono trovare insight preziosi in enormi set di dati non strutturati. Con il machine learning e l'elaborazione del linguaggio naturale, gli algoritmi di AI setacciano i dati non strutturati per trovare modelli e fare previsioni o raccomandazioni in tempo reale. Questi modelli analitici possono anche integrarsi nelle dashboard o nelle API esistenti per automatizzare il processo decisionale.

Text mining

Il text mining utilizza Naïve Bayes, supporta le macchine vettoriali (SVM) e altri algoritmi di deep learning per aiutare le organizzazioni a esplorare e scoprire relazioni nascoste all'interno dei dati non strutturati. Per il text mining vengono utilizzate diverse tecniche, come il recupero e l'estrazione delle informazioni, il data mining e l'elaborazione del linguaggio naturale.

Elaborazione del linguaggio naturale (NLP)

La NLP utilizza il machine learning per aiutare i computer a comprendere e comunicare con il linguaggio umano. Nel contesto dell'analisi dei dati non strutturati, la NLP consente l'estrazione di insight da dati di testo non strutturati, come recensioni dei clienti e post sui social media. Può essere utilizzato per migliorare il text mining offrendo elaborazione e comprensione avanzate del linguaggio, come l'analisi del sentiment.

Soluzioni correlate
Software e soluzioni per database

Usa le soluzioni di database di IBM per soddisfare varie esigenze di workload nell'hybrid cloud.

Esplora le soluzioni di database
Database cloud-native con IBM Db2

Esplora IBM DB2, un database relazionale che offre prestazioni, scalabilità e affidabilità elevate per l'archiviazione e la gestione di dati strutturati. È disponibile come SaaS su IBM Cloud o in self-hosting.

Scopri Db2
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fasi successive

Usa le soluzioni di database di IBM per soddisfare varie esigenze di workload nel cloud ibrido.

Esplora le soluzioni di database Scopri IBM Db2
Note a piè di pagina