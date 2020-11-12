Sebbene l'elaborazione del linguaggio naturale (NLP), la comprensione del linguaggio naturale (NLU) e la generazione del linguaggio naturale (NLG) siano tutti argomenti correlati, sono distinti. A livello generale, NLU e NLG sono solo componenti di NLP: dato il modo in cui si intersecano, vengono comunemente confusi all'interno di una conversazione, ma in questo post definiremo ogni termine individualmente e riassumeremo le loro differenze per chiarire eventuali ambiguità.
L'elaborazione del linguaggio naturale, che si è evoluta dalla linguistica computazionale, utilizza metodi di varie discipline, come informatica, intelligenza artificiale, linguistica e data science, per consentire ai computer di comprendere il linguaggio umano sia in forma scritta che verbale. Sebbene la linguistica computazionale ponga una maggiore enfasi sugli aspetti del linguaggio, l'elaborazione del linguaggio naturale enfatizza l'uso di tecniche di machine learning e deep learning per completare attività come la traduzione linguistica o la risposta alle domande. L'elaborazione del linguaggio naturale funziona prendendo i dati non strutturati e convertendoli in un formato di dati strutturato. Lo fa attraverso l'identificazione di entità denominate (un processo chiamato named entity recognition) e l'identificazione di modelli di parole, utilizzando metodi come la tokenizzazione, lo stemming e la lemmatizzazione, che esaminano le forme fondamentali delle parole. Ad esempio, in inglese, il suffisso -ed al termine di una parola, come "called", indica il passato, ma ha la stessa base di infinito (to call) della forma continuata "calling".
Sebbene esistano numerosi algoritmi di NLP, si utilizzano approcci diversi per i vari tipi di attività linguistiche. Ad esempio, le catene di Markov nascoste tendono ad essere utilizzate per l'etichettatura di parti del discorso. Le reti neurali ricorrenti aiutano a generare la sequenza di testo appropriata. Gli N-grammi, un modello linguistico (LM) semplice, assegnano probabilità alle frasi per prevedere l'accuratezza di una risposta. Queste tecniche collaborano per supportare tecnologie popolari come i chatbot o i prodotti di riconoscimento vocale come Alexa di Amazon o Siri di Apple. Tuttavia, la sua applicazione è stata più ampia, interessando anche altri settori come l'educazione e l'assistenza sanitaria.
La natural language understanding è un sottoinsieme dell'elaborazione del linguaggio naturale che utilizza l'analisi sintattica e semantica del testo e del discorso per determinare il significato di una frase. La sintassi si riferisce alla struttura grammaticale di una frase, mentre la semantica allude al significato previsto. L'NLU stabilisce anche un'ontologia rilevante: una struttura dati che specifica le relazioni tra parole e frasi. Sebbene gli umani lo facciano naturalmente durante una conversazione, la combinazione di queste analisi è necessaria affinché una macchina comprenda il significato previsto dei diversi testi.
La nostra capacità di distinguere tra omonimi e omofoni illustra bene le sfumature del linguaggio. Prendiamo ad esempio le seguenti due frasi:
Nella prima frase, la parola "corrente" è un sostantivo. Il verbo che lo precede, nuotare, fornisce un contesto aggiuntivo al lettore, permettendoci di concludere che ci riferiamo al flusso d'acqua nell'oceano. La seconda frase usa la parola corrente, ma come aggettivo. Il nome che descrive, versione, indica più iterazioni di un report, consentendoci di determinare che ci riferiamo allo stato più aggiornato di un file.
Questi approcci sono comunemente utilizzati anche nel data mining per comprendere gli atteggiamenti dei consumatori. In particolare, l'analisi del sentiment consente ai marchi di monitorare più da vicino il feedback dei clienti, consentendo loro di creare cluster di commenti positivi e negativi sui social media e di monitorare i punteggi netti dei promotori. Esaminando i commenti con sentiment negativo, le aziende sono in grado di identificare e affrontare più rapidamente le potenziali aree problematiche all'interno dei loro prodotti o servizi.
La generazione del linguaggio naturale è un altro sottoinsieme dell'elaborazione del linguaggio naturale. Mentre la natural language understanding si concentra sulla comprensione della lettura al computer, la generazione del linguaggio naturale consente ai computer di scrivere. L'NLG è il processo di produzione di una risposta testuale in linguaggio umano basata su alcuni input di dati. Questo testo può anche essere convertito in formato vocale tramite servizi di Text-to-Speech.
L'NLG include anche funzionalità di riepilogo del testo che generano riepiloghi dai documenti di input mantenendo l'integrità delle informazioni. La sintesi estrattiva è l'innovazione AI che alimenta l'analisi dei punti chiave utilizzata in That's Debatable.
Inizialmente, i sistemi NLG utilizzavano modelli per generare il testo. Sulla base di alcuni dati o domande, un sistema NLG doveva riempire gli spazi vuoti. Nel tempo, tuttavia, i sistemi di generazione del linguaggio naturale si sono evoluti con l'applicazione di catene di Markov nascoste, reti neurali e trasformatori, consentendo una generazione di testo più dinamica in tempo reale.
Come per la NLU, le applicazioni NLG devono considerare le regole linguistiche basate su morfologia, lessico, sintassi e semantica per fare scelte su come formulare le risposte in modo appropriato. Questo problema viene affrontato in tre fasi:
L'elaborazione del linguaggio naturale e i suoi sottoinsiemi hanno numerose applicazioni pratiche nel mondo di oggi, come le diagnosi sanitarie o il servizio clienti online.
