Che cos'è la classificazione del testo?

Autori

Cole Stryker

Staff Editor, AI Models

IBM Think

Che cos'è la classificazione del testo?

La classificazione del testo è un'attività di apprendimento automatico che prevede l'assegnazione di etichette predefinite ai dati di testo per classificarli automaticamente in gruppi. Poiché le aziende e le piattaforme gestiscono volumi sempre crescenti di testo non strutturato, la classificazione del testo offre un modo efficace per organizzare, interpretare e agire sui dati di testo su larga scala.

Le organizzazioni odierne producono una quantità enorme di dati di testo su siti web, app e altre reti sotto forma di recensioni dei clienti, post sui social media, documenti legali, e-mail e altro ancora. In questi dati ci sono insight nascosti che potrebbero aiutare l'organizzazione a prendere decisioni migliori. La classificazione del testo è il primo passo del processo.

Un ticket di supporto etichettato come "urgente" può essere indirizzato a un workflow prioritario. Un'e-mail etichettata come "spam" può essere archiviata automaticamente. Una recensione di un cliente etichettata come "positiva" può fornire informazioni sul sentiment di un cliente riguardo a un nuovo prodotto. I dati classificati possono essere aggregati e visualizzati per scoprire tendenze e modelli che altrimenti rimarrebbero nascosti.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Come funziona la classificazione del testo

La classificazione del testo è un'attività fondamentale nell'elaborazione del linguaggio naturale (PNL), utilizzata in un'ampia gamma di applicazioni. Un classificatore di testo è un modello di apprendimento automatico che risolve diversi problemi di classificazione, come classificare i testi per argomento, sentimento o intento. Ecco come funziona:

Classificazione del testo supervisionata

I modelli supervisionati vengono in genere utilizzati per eseguire la classificazione del testo. Il primo passo consiste nel raccogliere un ampio set di dati di campioni di testo. Questo potrebbe includere e-mail, post sui social, recensioni dei clienti o documenti.

Gli annotatori umani applicano un'etichetta a ogni parte di testo. Ad esempio, "spam" o "non spam" oppure sentimento "positivo" o "negativo". Questo set di dati di formazione etichettato costituisce la base per l'addestramento di un modello di apprendimento automatico. In genere, più sono i dati più accurati sono gli output.

La pre-elaborazione del testo di input trasforma il testo in un formato standardizzato e leggibile dalla macchina. I classificatori possono funzionare solo con testo che è stato tradotto in rappresentazioni numeriche, spesso utilizzando embedding di parole o architetture di codificazione più avanzate che catturano il significato semantico del linguaggio.

Gli iperparametri configurano variabili come il numero di livelli delle reti neurali, il numero di neuroni per livello o l'uso di un'attivazione. Questi iperparametri vengono scelti prima dell'inizio dell'addestramento.

Quindi i dati vengono inseriti in un algoritmo di classificazione, che impara ad associare i modelli nei dati alle etichette associate.

Gli algoritmi di classificazione del testo includono:

Il modello addestrato viene testato su un set di dati di validazione o test separato per valutare le prestazioni del modello con metriche quali accuratezza, precisione, richiamo e punteggio F1 e valutato rispetto a benchmark consolidati.

Un modello di classificazione del testo efficiente può essere integrato nei sistemi di produzione, dove classifica il testo in arrivo in tempo reale.

I modelli avanzati possono migliorare nel tempo incorporando nuovi dati e ripetendo l'addestramento. I modelli linguistici preaddestrati come BERT hanno già acquisito una profonda comprensione del linguaggio e possono essere perfezionati su attività di classificazione specifiche con relativamente pochi dati. La messa a punto riduce i tempi di addestramento e migliora le prestazioni, soprattutto per le categorie complesse o sfumate.

Classificazione del testo non supervisionato

Sebbene i metodi supervisionati siano molto più comuni, i modelli possono essere addestrati senza dati etichettati utilizzando l'apprendimento non supervisionato. Invece di sentirsi dire la categoria corretta per ogni testo, il modello cerca di trovare da solo la struttura o i modelli nei dati. Ciò contrasta con la classificazione supervisionata del testo, in cui ogni esempio di formazione è etichettato con una categorizzazione predefinita. I metodi supervisionati sono molto più comuni.

Ad esempio, con una tecnica chiamata clustering, il modello raggruppa parti di testo simili in cluster in base a caratteristiche condivise, che possono poi essere interpretate come una categoria.

AI Academy

AI all'opera nell'ambito del servizio clienti

Scopri come l'AI generativa può offrire ai clienti un'esperienza più fluida e aumentare la produttività dell'organizzazione in queste tre aree chiave: self-service, agenti umani e operazioni di contact center.

Casi d'uso della classificazione del testo

Ecco alcune attività comuni di NLP che comportano la classificazione:

  • Rilevamento dello spam
  • Analisi del sentiment
  • Classificazione degli argomenti
  • Rilevamento degli intenti
  • Rilevamento di contenuti dannosi e offensivi

Rilevamento dello spam

I sistemi di rilevamento dello spam analizzano i messaggi in arrivo e li classificano come "spam" o "non spam". Utilizzano un mix di regole, modelli statistici e tecniche di machine learning per rilevare email di phishing, messaggi di marketing di massa provenienti da mittenti sconosciuti, link sospetti, malware e altro ancora.

Analisi del sentiment

L'analisi del sentiment è il processo di analisi di grandi volumi di testo per determinarne il sentiment. L'analisi del sentiment aiuta le organizzazioni a determinare se le persone hanno associazioni positive o negative nei punti di contatto digitali.

Un algoritmo di apprendimento automatico può valutare il sentiment utilizzando le parole che appaiono nel testo e l'ordine in cui appaiono. Gli sviluppatori utilizzano algoritmi di analisi del sentiment per insegnare al software come identificare le emozioni nel testo in modo simile agli esseri umani.

Classificazione degli argomenti

L'obiettivo della classificazione degli argomenti è assegnare categorie tematiche predefinite a una parte di testo. È comunemente usato nella gestione dei contenuti, nell'aggregazione, nella ricerca accademica e nell'analisi del feedback dei clienti per organizzare grandi volumi di testo non strutturato.

Rilevamento degli intenti

Mentre la classificazione degli argomenti indica l'argomento di un messaggio, il rilevamento degli intenti indica ciò che l'utente sta cercando di fare. Il rilevamento degli intenti è utile per automatizzare le conversazioni e le attività di instradamento nel servizio clienti o nell'e-commerce. Senza di essa, i sistemi farebbero fatica a fornire un'assistenza significativa.

Rilevamento di contenuti dannosi e offensivi

Il rilevamento di contenuti dannosi e offensivi è un'attività di classificazione del testo che si concentra sull'identificazione e la segnalazione di contenuti inappropriati, provocatori o abusivi online. Ciò potrebbe includere un linguaggio che incita all'odio, minaccioso, molesto, osceno o comunque inappropriato. Le grandi piattaforme di social media utilizzano algoritmi di classificazione per assistere il personale di supporto nella gestione di enormi basi di utenti globali.

Framework, strumenti e API

Sono disponibili molti strumenti open source per creare classificatori di testo. Framework come TensorFlow e PyTorch offrono componenti per la creazione e l'addestramento di modelli. Ad esempio, un classificatore basato su TensorFlow potrebbe utilizzare un'API Keras con moduli come validation_data, optimizer e loss per addestrare un modello su dati etichettati. PyTorch, una libreria di machine learning basata su Python nota per la sua flessibilità, è anche ampiamente utilizzata con utilità come DataLoader e NN.Module.

Mentre i classificatori tradizionali utilizzano etichette fisse, l'ascesa dei modelli linguistici di grandi dimensioni (LLM) ha introdotto approcci generativi alla classificazione. Ai modelli può essere richiesto di produrre sia etichette che spiegazioni in linguaggio naturale. Ad esempio, si potrebbe dare un prompt a un LLM con una frase e chiedergli di classificare il sentiment, generare una giustificazione o suggerire categorie, tutto senza ulteriore addestramento.

Con l'accelerazione GPU, i tempi di addestramento sono di gran lunga ridotti, soprattutto per set di dati di grandi dimensioni o architetture di deep learning complesse. Ricercatori e sviluppatori spesso condividono le loro pipeline e modelli di addestramento su GitHub.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live