Cos'è il text mining?

Cos'è il text mining?

Il text mining, noto anche come text data mining, è il processo di conversione di un testo non strutturato in un formato strutturato per identificare pattern significativi e nuovi insight. Il text mining può essere utilizzato per analizzare vaste raccolte di materiali testuali al fine di catturare concetti chiave, tendenze e relazioni nascoste.

Applicando tecniche analitiche avanzate, come Naïve Bayes, Support Vector Machines (SVM) e altri algoritmi di deep learning, le aziende sono in grado di esplorare e scoprire relazioni nascoste all'interno dei propri dati non strutturati.

Il testo è uno dei tipi di dati più comuni all'interno dei database. A seconda del database, questi dati possono essere organizzati come:

  • Dati strutturati: questi dati sono standardizzati in un formato tabulare con numerose righe e colonne, il che facilita la loro memorizzazione ed elaborazione per l'analisi e gli algoritmi di machine learning. I dati strutturati possono includere input come nomi, indirizzi e numeri di telefono.

  • Dati non strutturati: questi dati non hanno un formato di dati predefinito. Possono riguardare testi provenienti da fonti come social media o recensioni di prodotti, oppure rich media come video e file audio.

  • Dati semi-strutturati: come suggerisce il nome, questi dati sono una miscela di formati di dati strutturati e non strutturati. Sebbene abbiano una certa organizzazione, non dispongono di una struttura sufficiente per soddisfare i requisiti di un database relazionale. Esempi di dati semi-strutturati includono file XML, JSON e HTML.

Poiché circa l'80% dei dati nel mondo risiede in un formato non strutturato, il text mining è una pratica estremamente preziosa all'interno delle organizzazioni. Gli strumenti di text mining e le tecniche di elaborazione del linguaggio naturale (NLP), come l'estrazione di informazioni, ci permettono di trasformare i documenti non strutturati in un formato strutturato per consentire l'analisi e la generazione di insight di alta qualità. Questo, a sua volta, migliora il processo decisionale delle organizzazioni, portando a migliori risultati aziendali.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Text mining e analytics a confronto

Nella conversazione, i termini text mining e text analytics sono perlopiù sinonimi, tuttavia possono differrire leggermente. Il text mining e l'analisi del testo identificano modelli e tendenze testuali all'interno dei dati non strutturati attraverso l'utilizzo del machine learning, delle statistiche e della linguistica. Trasformando i dati in un formato più strutturato utilizzando il text mining e l'analisi del testo, si possono trovare ulteriori insight quantitativi attraverso l'analytics dei testi. Le tecniche di visualizzazione dei dati possono quindi essere sfruttate per comunicare i risultati a un pubblico più ampio.

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Tecniche di text mining

Il processo di text mining comprende diverse attività che consentono di dedurre informazioni da dati di testo non strutturati. Prima di poter applicare diverse tecniche di text mining, è necessario iniziare con la pre-elaborazione del testo, ovvero la pratica di pulizia e trasformazione dei dati di testo in un formato utilizzabile. Questa pratica è un aspetto fondamentale dell'elaborazione del linguaggio naturale (PNL) e di solito prevede l'uso di tecniche come l'identificazione del linguaggio, la tokenizzazione, l'etichettatura di parti del discorso, la suddivisione in blocchi e l'analisi della sintassi per formattare i dati in modo appropriato per l'analisi. Quando la preelaborazione del testo è completa, puoi applicare algoritmi di text mining per ricavare insight dai dati. Alcune di queste comuni tecniche di text mining includono:

Recupero delle informazioni

L'Information Retrieval (IR) restituisce informazioni o documenti pertinenti in base a un set predefinito di query o frasi. I sistemi di IR utilizzano algoritmi per tracciare i comportamenti degli utenti e identificare i dati rilevanti. Il recupero delle informazioni è comunemente utilizzato nei sistemi di catalogazione delle biblioteche e nei motori di ricerca più diffusi, come Google. Alcuni attività secondarie dell'IR includono:

  • Tokenizzazione: il processo di scomposizione di un testo di forma lunga in frasi e parole chiamate "token". Questi vengono quindi utilizzati nei modelli, come bag-of-words, per il raggruppamento di testi e per le attività di abbinamento dei documenti.

  • Stemming: il processo di separazione dei prefissi e dei suffissi dalle parole per ricavare la forma e il significato della parola radice. Questa tecnica migliora il recupero delle informazioni riducendo le dimensioni dei file di indicizzazione.

Elaborazione del linguaggio naturale (NLP)

L'elaborazione del linguaggio naturale, che si è evoluta dalla linguistica computazionale, utilizza metodi di varie discipline, come informatica, intelligenza artificiale, linguistica e scienza dei dati, per consentire ai computer di comprendere il linguaggio umano sia in forma scritta che verbale. Analizzando la struttura delle frasi e la grammatica, le attività secondarie della PNL consentono ai computer di "leggere". Le attività secondarie più comuni includono:

  • Riassunto: questa tecnica fornisce una sinossi di lunghi pezzi di testo per creare un riassunto conciso e coerente dei punti principali di un documento.

  • Tagging Part-of-Speech (PoS): questa tecnica assegna un tag a ogni token di un documento in base alla sua parte del discorso, ovvero il fatto che indichi nomi, verbi, aggettivi ecc. Questo passaggio consente l'analisi semantica del testo non strutturato.

  • Categorizzazione del testo: questa attività, nota anche come classificazione del testo, è responsabile dell'analisi dei documenti di testo e della loro classificazione in base a categorie o argomenti predefiniti. Questa attività secondaria è particolarmente utile per la categorizzazione dei sinonimi e delle abbreviazioni.

  • Analisi del sentiment: questa attività rileva il sentiment positivo o negativo da fonti di dati interne o esterne, consentendole di tenere traccia dei cambiamenti negli atteggiamenti dei clienti nel tempo. È comunemente usata per fornire informazioni sulla percezione di marchi, prodotti e servizi. Questi insight possono spingere le aziende a entrare in contatto con i clienti e a migliorarne le procedure e le esperienze.

Estrazione delle informazioni

L'estrazione delle informazioni (IE) fa emergere i dati rilevanti durante la ricerca di vari documenti. Si concentra anche sull'estrazione di informazioni strutturate dal testo libero e sulla memorizzazione di queste entità, attributi e informazioni sulle relazioni in un database. Nell'estrazione delle informazioni, le attività secondarie comuni includono:

  • La selezione delle caratteristiche, o selezione degli attributi, è il processo di selezione delle caratteristiche (dimensioni) importanti per contribuire maggiormente all'output di un modello di analytics predittiva.

  • L'estrazione delle caratteristiche è il processo di selezione di un sottoinsieme di caratteristiche per migliorare l'accuratezza di un'attività di classificazione. Questo è particolarmente importante per ridurre la dimensionalità.

  • Named Entity Recognition (NER), nota anche come identificazione delle entità o estrazione delle entità, punta a trovare e a classificare entità specifiche nel testo, come nomi o posizioni. Ad esempio, la NER identifica "California" come luogo e "Mary" come nome femminile.

Mining dei dati

Il data mining è il processo di identificazione di modelli ed estrazione di insight da insiemi di big data. Questa pratica valuta sia i dati strutturati che i dati non strutturati per identificare nuove informazioni ed è comunemente utilizzata per analizzare i comportamenti dei consumatori nell'ambito del marketing e delle vendite. Il text mining è essenzialmente un sottocampo del data mining, in quanto si concentra sulla strutturazione di dati non strutturati e sulla loro analisi per generare nuovi insight. Le tecniche sopra citate sono forme di data mining, ma rientrano nell'ambito dell'analisi dei dati testuali.

Applicazioni di text mining

Il software di analytics dei testi ha influito sul modo in cui funzionano molti settori, consentendo loro di migliorare le esperienze degli utenti dei prodotti e di prendere decisioni aziendali migliori e più rapide. Alcuni casi d'uso includono:

Servizio clienti: esistono vari modi in cui richiediamo il feedback dei clienti ai nostri utenti. Se abbinati a strumenti di analytics dei testi, sistemi di feedback come chatbot, sondaggi sui clienti, NPS (net-promoter score), recensioni online, ticket di assistenza e profili sui social media consentono alle aziende di migliorare rapidamente l'esperienza del cliente. Il text mining e l'analisi del sentiment possono fornire alle aziende un meccanismo per dare priorità ai principali punti deboli dei propri clienti, consentendo alle aziende di rispondere a problemi urgenti in tempo reale e di aumentare la soddisfazione dei clienti. Scopri come Verizon utilizza l'analytics dei testi nel servizio clienti.

Gestione del rischio: il text mining ha anche applicazioni nella gestione del rischio, dove può fornire insight sulle tendenze dei settori e sui mercati finanziari monitorando i cambiamenti del sentiment ed estraendo informazioni dai report e dai white paper degli analisti. Ciò è particolarmente utile per gli istituti bancari in quanto questi dati forniscono maggiore fiducia quando si considerano gli investimenti aziendali in vari settori. Scopri come CIBC ed EquBot utilizzano l'analytics dei testi per mitigare il rischio.

Manutenzione: il text mining fornisce un quadro ricco e completo della funzionalità e del funzionamento di prodotti e macchinari. Nel corso del tempo, il text mining automatizza il processo decisionale rivelando modelli correlati ai problemi e alle procedure di manutenzione preventiva e reattiva. L'analytics dei testi aiuta i professionisti della manutenzione a scoprire più rapidamente la causa principale di problemi e guasti.

Assistenza sanitaria: le tecniche di text mining sono sempre più preziose per i ricercatori nel campo biomedico, in particolare per il raggruppamento delle informazioni. L'indagine manuale sulla ricerca medica può essere costosa e richiedere molto tempo; il text mining offre un metodo di automazione per estrarre informazioni preziose dalla letteratura medica.

Filtraggio dello spam: lo spam funge spesso da punto di ingresso per gli hacker, che possono infettare i sistemi informatici con il malware. Il text mining offre un metodo per filtrare ed escludere queste e-mail dalle caselle di posta, migliorando l'esperienza complessiva degli utenti e riducendo al minimo il rischio di attacchi informatici per gli utenti finali.

Soluzioni correlate
IBM watsonx Orchestrate

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Scopri watsonx Orchestrate
Strumenti di elaborazione del linguaggio naturale e API

Accelera il valore aziendale dell'intelligenza artificiale con un portfolio potente e flessibile di librerie, servizi e applicazioni.

Esplora le soluzioni NLP
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Scopri watsonx Orchestrate Esplora le soluzioni NLP