Cos'è l'estrazione delle informazioni?

Autori

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Cos'è l'estrazione delle informazioni?

L'estrazione delle informazioni (IE) è il processo automatizzato di estrazione di informazioni strutturate da dati di testo semi-strutturati o non strutturati, trasformando le fonti di testo in linguaggio umano, come i PDF, in un formato organizzato, interrogabile e leggibile dalla macchina. L'elaborazione del linguaggio naturale (PNL) si basa sull'estrazione delle informazioni per identificare dati importanti all'interno del testo di input.

Gli algoritmi di estrazione delle informazioni possono identificare le entità, inclusi nomi, relazioni, eventi, sentiment e altro, quindi classificarle e memorizzarle in un database per ulteriori utilizzi. Le informazioni strutturate risultanti hanno un formato standardizzato e sono in genere memorizzate in righe e colonne che ne identificano gli attributi. Lo storage standardizzato è il principale elemento di differenziazione tra dati strutturati e dati non strutturati.

Tutti i valori dei dati all'interno dello stesso database aderiscono allo stesso formato strutturato con gli stessi attributi definiti. Vengono inoltre evidenziati gli attributi relazionali per connettere i database in base agli attributi condivisi.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Perché è importante l'estrazione delle informazioni?

L'estrazione delle informazioni consente alle aziende di trasformare i documenti in set di dati fruibili e di generare insight preziosi da essi. Si prevede che il mercato dell'elaborazione intelligente dei documenti, facilitato dall'IE, crescerà in base a un tasso di crescita annuale composto (CAGR) del 33,1% entro il 2030, partendo da un valore di 2,3 miliardi di dollari nel 2024.1

Recupero delle informazioni

I sistemi di estrazione delle informazioni pongono le basi per il recupero automatico delle informazioni, ovvero l'uso di algoritmi di intelligenza artificiale (AI) per trovare e recuperare automaticamente i dati pertinenti dalle knowledge base. Il recupero delle informazioni è una componente essenziale della retrieval-augmented generation (RAG), un processo mediante il quale i modelli linguistici di grandi dimensioni (LLM) hanno accesso a una maggiore quantità di dati, offrendo un'elevata precisione nei casi d'uso specifici del dominio. 

La RAG può rendere i chatbot LLM più accurati se applicati alle attività di risposta alle domande, perché l'LLM può attingere a più conoscenze al di fuori dei suoi dati di addestramento per generare risposte migliori.

Processo decisionale basato sui dati

I leader aziendali possono utilizzare le informazioni estratte per facilitare il processo decisionale basato sui dati in tempo reale. L'IE è una fase preliminare del più ampio ciclo di elaborazione delle informazioni in cui le informazioni vengono acquisite, organizzate, memorizzate, manipolate e rese disponibili per l'uso. 

Le pipeline di dati forniscono informazioni in tutta l'azienda, collegando i punti di input, ad esempio gli ordini online, ai database. Da lì, gli strumenti di visualizzazione dei dati attingono a quei dati per creare diagrammi e grafici in tempo reale, rivelando insight fruibili che guidano il processo decisionale strategico. 

I grandi set di dati strutturati generati dai sistemi IE possono essere utilizzati per creare report e riepiloghi. Gli algoritmi di machine learning per l'IE possono anche eseguire la sintesi del testo per condensare documenti dettagliati in punti comprensibili velocemente, con annotazioni per una rapida consultazione. 

Ad esempio, l'IE nel settore sanitario può compilare automaticamente un referto del paziente da più file, rendendo potenzialmente più facile per i medici diagnosticare i problemi e prescrivere trattamenti. I professionisti finanziari possono generare previsioni più accurate con informazioni estratte da più rapporti, articoli di notizie e altre fonti.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Tipi di estrazione delle informazioni

Le attività di estrazione delle informazioni vengono categorizzate in base al tipo di informazioni identificate ed etichettate. I sistemi di IE sono in grado di gestire attività quali: 

  • Named entity recognition (NER) 
  • Estrazione di relazioni
  • Estrazione degli eventi 
  • Analisi del sentiment

Named entity recognition (NER) 

La Named entity recognition è l'attività di IE di identificazione delle entità denominate nei dati non strutturati. Le entità denominate sono oggetti del mondo reale che possono essere identificati in modo univoco. Di fatto, sono i nomi propri dei dati. Le entità denominate includono persone, date, aziende, luoghi e prodotti e possono essere sia fisiche che astratte. 

Nella frase "A gennaio 2025, Arvind Krishna è il CEO di IBM", le entità denominate sono gennaio 2025, Arvind Krishna, CEO e IBM". 

Collegamento delle entità

Il collegamento delle entità è il processo che consente di determinare se più entità fanno riferimento allo stesso oggetto del mondo reale. Quando si esegue un'analisi preliminare di un articolo in cui vengono menzionati "Arvind Krishna", "Krishna" e "CEO di IBM", un'attività secondaria del collegamento delle entità identificherebbe tutti e 3 come riferimenti alla stessa persona. Il collegamento delle entità è noto anche come risoluzione delle coreferenze.

Estrazione delle relazioni (RE)

L'estrazione delle relazioni è l'attività di estrazione delle informazioni che consiste nell'identificazione e classificazione delle relazioni tra le entità in una fonte di dati. Scoprire le relazioni tra le entità può aprire la porta a insight che altrimenti passerebbero inosservati. 

Nella frase utilizzata come esempio all'inizio di questa sezione, il processo RE traccerebbe una connessione "lavora presso" tra "Arvind Krishna" e "IBM" con il titolo di "CEO".

Estrazione delle relazioni ed estrazione dei rapporti

I termini estrazione delle relazioni ed estrazione dei rapporti sono spesso usati in modo intercambiabile, tuttavia per alcuni data scientist vi è una sottile distinzione. Mentre l'estrazione dei rapporti riguarda qualsiasi tentativo di discernere le relazioni tra le entità, l'estrazione delle relazioni viene spesso utilizzata in merito all'applicazione di modelli di machine learning per svolgere questo compito.

Estrazione degli eventi

L'estrazione degli eventi è il modo in cui i sistemi di IE riconoscono gli eventi discreti in un testo di input. Parole come "appuntamento" o "riunione" possono attivare una sequenza di estrazione degli eventi, così come le date. L'estrazione degli eventi include l'evento stesso, l'ora e la data in cui si è verificato e qualsiasi partecipante menzionato. 

Nella frase "Arvind Krishna ha partecipato alla conferenza nel gennaio 2025", un algoritmo di estrazione degli eventi identificherebbe che una conferenza si è svolta nel gennaio 2025 e che uno dei partecipanti era il CEO di IBM Arvind Krishna.

Analisi del sentiment

L'analisi del sentiment determina la sensazione comunicata da un testo. L'analisi del sentiment è uno strumento prezioso per condurre ricerche di mercato e comprendere il comportamento dei clienti. 

Quando gli viene fornito un set di dati composto da recensioni degli utenti, un algoritmo di IE può fornire insight semantici che rivelano le percentuali di consumatori che hanno un'opinione positiva, negativa o neutrale su un prodotto. I responsabili di prodotto potrebbero quindi prendere quegli insight e modificare il prodotto per renderlo più interessante per una porzione maggiore dei propri utenti, esistenti e potenziali.

Come funziona l'estrazione delle informazioni?

L'estrazione delle informazioni funziona analizzando le fonti di dati non strutturate con algoritmi di machine learning per identificare dati significativi. I sistemi di IE etichettano le entità di dati rilevate e le memorizzano in un database organizzato e interrogabile, per un recupero efficiente. 

Le tecniche di estrazione delle informazioni includono: 

  • Basata su regole
  • Classificazione (machine learning)
  • Etichettatura delle sequenze

Questi metodi non si escludono a vicenda: i progressi nell'IE hanno portato a modelli ibridi che combinano metodi per ottenere risultati migliori.

Estrazione delle informazioni basata su regole

L'estrazione delle informazioni basata su regole analizza i documenti per identificare le entità in base a "regole" prestabilite, ovvero modelli e definizioni predefiniti e noti sulle entità nel testo. L'IE basato su regole viene spesso applicato alle origini di dati semistrutturati, ovvero dati che non sono completamente strutturati ma che hanno comunque alcune caratteristiche identificative come tag o metadati. 

L'IE basata su regole dall'alto verso il basso funziona passando da casi generali a casi specifici, mentre il metodo bottom-up fa il contrario.

Estrazione delle informazioni basata sulla classificazione

L'IE basata sulla classificazione è un processo in due fasi che affronta l'estrazione delle informazioni come un'attività di classificazione dell'apprendimento supervisionato. Innanzitutto, i modelli di apprendimento automatico vengono addestrati su set di dati etichettati per apprendere le connessioni tra le entità e i loro attributi corrispondenti. I modelli prevedono quindi le etichette per le entità che identificano nei nuovi dati non strutturati. 

Etichettatura delle sequenze

L'etichettatura delle sequenze è la pietra angolare della PNL e utilizza modelli di deep learning per identificare ed etichettare i componenti di una sequenza di input, ad esempio le parole nel prompt di un chatbot. L'etichettatura delle sequenze è un passaggio critico di pre-elaborazione della PNL, che aiuta a garantire che le reti neurali sappiano esattamente come interpretare i dati di input. 

Oltre a identificare le entità nei dati, l'etichettatura delle sequenze rileva anche le dipendenze tra le parti di una sequenza di input. Le dipendenze sono un tipo speciale di relazione in cui una parte di una sequenza di input si basa su un'altra parte per essere interpretata correttamente. I modelli trasformativi, come le tecnologie generiche (GPT), eccellono nell'acquisizione delle dipendenze, motivo per cui possono mantenere la comprensione contestuale per lunghe sequenze di input.

Soluzioni correlate
IBM watsonx Orchestrate

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Scopri watsonx Orchestrate
Strumenti di elaborazione del linguaggio naturale e API

Accelera il valore aziendale dell'intelligenza artificiale con un portfolio potente e flessibile di librerie, servizi e applicazioni.

Esplora le soluzioni NLP
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Scopri watsonx Orchestrate Esplora le soluzioni NLP