Home
topics
Cosa è il Text Mining?
Il text mining, conosciuto anche come data text mining, è il processo di trasformazione di testo non strutturato in un formato strutturato per identificare modelli significativi e nuovi insight. Applicando avanzate tecniche analitiche, come Naïve Bayes, SVM (Support Vector Machine) e altri algoritmi di deep learning, le aziende sono in grado di esplorare e rilevare relazioni nascoste all'interno dei propri dati non strutturati.
Il testo è uno tipi di dati più comuni all'interno dei database. In base al database, questi dati possono essere organizzati come:
Poiché circa l'80% dei dati nel mondo ha un formato non strutturato (link esterno a ibm.com), il text mining è una pratica estremamente preziosa all'interno delle organizzazioni. Gli strumenti di text mining e le tecniche NLP (Natural Language Processing), come l'estrazione di informazioni (PDF, 131 KB) (link esterno a IBM), ci consentono di trasformare documenti non strutturati in un formato strutturato per abilitare l'analisi e le generazione di insight di alta qualità. Questo, a sua volta, migliora il processo decisionale delle organizzazioni, portando a migliori risultati aziendali.
I termini text mining e analytics del testo sono in gran parte sinonimi nelle conversazioni, ma possono avere un significato più sfumato. Il text mining e l'analytics del testo identificano tendenze e modelli di testo all'interno dei dati non strutturati tramite l'utilizzo di machine learning, statistiche e linguistica. Trasformando i dati in un formato più strutturato attraverso il text mining e l'analisi del testo, è possibile individuare insight più quantitativi tramite l'analytics del testo. È quindi possibile utilizzare tecniche di visualizzazione dei dati per comunicare i risultati ad un numero maggiore di destinatari.
Il processo di text mining comprende diverse attività che consentono di ricavare informazioni da dati di testo non strutturati. Prima di poter applicare diverse tecniche di text mining, è necessario eseguire la pre-elaborazione del testo, ossia la pratica di pulizia e trasformazione dei dati di testo in un formato utilizzabile. Questa pratica è un aspetto fondamentale dell'elaborazione NLP (Natural Language Processing) e generalmente implica l'utilizzo di tecniche come l'identificazione della lingua, la tokenizzazione, l'etichettatura di parti del discorso, la suddivisione in blocchi e l'analisi della sintassi per formattare i dati in modo appropriato per l'analisi. Una volta completata la pre-elaborazione del testo, è possibile applicare gli algoritmi di text mining per derivare gli insight dai dati. Alcune di queste tecniche di text mining comuni comprendono:
Il recupero delle informazioni (IR, information retrieval) restituisce informazioni pertinenti o documenti in base ad un insieme predefinito di query o frasi. I sistemi IR utilizzano degli algoritmi per tracciare i comportamenti degli utenti e identificare i dati pertinenti. Il recupero delle informazioni è comunemente utilizzato nei sistemi di catalogo delle librerie e nei motori di ricerca ampiamente diffusi, come Google. Alcune attività secondarie dell'attività di recupero delle informazioni comprendono:
L'elaborazione NLP, che si è evoluta dalla linguistica computazionale, utilizza metodi di varie discipline, come informatica, AI, linguistica e data science, per consentire ai computer di comprendere il linguaggio umano nelle forme scritte e verbali. Analizzando la grammatica e la struttura delle frasi, le attività secondarie dell'elaborazione NLP consentono ai computer di "leggere". Le attività secondarie comuni comprendono:
L'estrazione delle informazioni (IE. information extraction) evidenzia le parti importanti dei dati durante la ricerca in vari documenti. Si concentra anche sull'estrazione di informazioni strutturate da testo libero e sulla memorizzazione in un database di tali entità, attributi e informazioni sulle relazioni. Le attività secondarie comuni di estrazione delle informazioni comprendono:
Il data mining è il processo di identificazione di modelli ed estrazione di insight utili da insiemi di big data. Questa pratica valuta i dati strutturati e non strutturati per identificare nuove informazioni ed è comunemente utilizzata per analizzare i comportamenti degli utenti nell'ambito delle vendite e del marketing. Il text mining è essenzialmente un campo secondario del data mining, in quanto si concentra sulla strutturazione di dati non strutturati e sulla relativa analisi per generare nuovi insight. Le tecniche sopra menzionate sono forme di data mining ma rientrano nell'ambito dell'analisi dei dati di testo.
Il software di analytics del testo ha avuto un impatto sul modo di lavorare di molti settori, consentendo di migliorare le esperienze utente dei prodotti e di prendere decisioni aziendali migliori e più rapide. Alcuni casi di utilizzo includono:
Servizio clienti: esistono diversi modi per richiedere il feedback ai nostri utenti. Quando combinati con gli strumenti di analytics del testo, i sistemi di feedback, come chatbot, sondaggi sui clienti, punteggi net-promoter (NPS, net-promoter score), recensioni online, ticket di supporto e profili di social media, consentono alle aziende di migliorare rapidamente la propria esperienza cliente. Il text mining e l'analisi del sentiment possono offrire alle aziende un meccanismo per assegnare priorità ai punti critici principali per i propri clienti, consentendo di rispondere a problematiche urgenti in tempo reale, migliorando la soddisfazione del cliente. Scopri in che modo Verizon utilizza l'analytics del testo nel servizio clienti.
Gestione del rischio: il text mining ha anche applicazioni nella gestione dei rischi, dove può fornire insight sulle tendenze di settore e sui mercati finanziari monitorando le variazioni del sentiment ed estraendo le informazioni da whitepaper e report degli analisti. Ciò è particolarmente prezioso per le istituzioni bancarie, in quanto questi dati forniscono maggiore fiducia quando si considerano gli investimenti aziendali in diversi settori. Scopri in che modo CIBC ed EquBot utilizzano l'analytics del testo per la riduzione dei rischi.
Manutenzione: il text mining fornisce una visione completa e dettagliata del funzionamento e delle funzionalità di prodotti e macchinari. Nel tempo, il text mining automatizza il processo decisionale rivelando modelli correlati a problemi e procedure di manutenzione preventiva e reattiva. L'analytics del testo aiuta i professionisti della manutenzione a scoprire più rapidamente le cause principali di sfide e malfunzionamenti.
Assistenza sanitaria: le tecniche di text mining sono diventate sempre più preziose per i ricercatori in campo biomedico, in particolare per il raggruppamento delle informazioni. L'indagine manuale della ricerca medica può essere costosa e richiedere molto tempo; il text mining fornisce un metodo di automazione per estrarre informazioni utili dalla letteratura medica.
Filtro della posta indesiderata: la posta indesiderata funge spesso da punto di ingresso per gli hacker per infettare i sistemi informatici con malware. Il text mining può fornire un metodo per filtrare ed escludere queste e-mail dalle caselle di posta, migliorando l'esperienza utente complessiva e riducendo al minimo il rischio di attacchi informatici per gli utenti finali.
IBM Watson Discovery è una potente e pluripremiata tecnologia di ricerca basata sull'AI che elimina i silos di dati e recupera le informazioni che si nascondono nei dati aziendali.
Watson Natural Language Understanding è un prodotto nativo del cloud che utilizza il deep learning per estrarre i metadati dal testo, come parole chiave, emozioni e sintassi.
NLP è l'AI che parla la lingua della tua azienda. Crea soluzioni che generano un ROI del 383% in tre anni con IBM Watson Discovery.
Scopri in che modo IBM Watson può fornire aiuto con l'analytics del testo.
Questo documento illustra gli sforzi iniziali miranti a creare un nuovo corpus del dominio della storia.