Il text mining, conosciuto anche come data text mining, è il processo di trasformazione di testo non strutturato in un formato strutturato per identificare modelli significativi e nuovi insight. Applicando avanzate tecniche analitiche, come Naïve Bayes, SVM (Support Vector Machine) e altri algoritmi di deep learning, le aziende sono in grado di esplorare e rilevare relazioni nascoste all'interno dei propri dati non strutturati.

Il testo è uno tipi di dati più comuni all'interno dei database. In base al database, questi dati possono essere organizzati come:

Dati strutturati: questi dati sono standardizzati in un formato tabulare con numerose righe e colonne, rendendo più semplice l'archiviazione e l'elaborazione per l'analisi e gli algoritmi di machine learning. I dati strutturati possono includere input come nomi, indirizzi e numeri di telefono.





Dati non strutturati: questi dati non hanno un formato dati predefinito. Possono includere testo proveniente da origini, come social media o recensioni di prodotti, oppure formati multimediali elaborati, come file video o audio.





Dati semi-strutturati: come suggerisce il nome, questi dati sono una combinazione di formati strutturati e dati non strutturati. Sebbene siano in qualche modo organizzati, tali dati non hanno la struttura sufficiente per soddisfare i requisiti di un database relazionale. Alcuni esempi di dati semi-strutturati sono file XML, JSON e HTML.

Poiché circa l'80% dei dati nel mondo ha un formato non strutturato (link esterno a ibm.com), il text mining è una pratica estremamente preziosa all'interno delle organizzazioni. Gli strumenti di text mining e le tecniche NLP (Natural Language Processing), come l'estrazione di informazioni (PDF, 131 KB) (link esterno a IBM), ci consentono di trasformare documenti non strutturati in un formato strutturato per abilitare l'analisi e le generazione di insight di alta qualità. Questo, a sua volta, migliora il processo decisionale delle organizzazioni, portando a migliori risultati aziendali.