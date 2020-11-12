Embora o processamento de linguagem natural (NLP), a natural language understanding (NLU) e a geração de linguagem natural (NLG) sejam tópicos relacionados, eles são distintos. Em alto nível, NLU e NLG são apenas componentes do NLP. Dada a forma como eles se cruzam, normalmente são confundidos na conversa, mas nesta postagem, definiremos cada termo individualmente e resumiremos suas diferenças para esclarecer quaisquer ambiguidades.
O processamento de linguagem natural, a evolução da linguística computacional, usa métodos de várias disciplinas, como ciência da computação, inteligência artificial, linguística e ciência de dados, para permitir que os computadores entendam a linguagem humana tanto na forma escrita quanto verbal. Enquanto a linguística computacional tem mais foco em aspectos da linguagem, o processamento de linguagem natural enfatiza o uso de técnicas de aprendizado de máquina e deep learning para realizar tarefas, como tradução de idiomas ou resposta a perguntas. O processamento de linguagem natural funciona pegando dados não estruturados e convertendo-os em um formato de dados estruturados . Ele faz isso por meio da identificação de entidades nomeadas (um processo chamado named entity recognition) e identificação de padrões de palavras, usando métodos como tokenização, stemização e lematização, que examinam as formas de raiz das palavras. Por exemplo, o sufixo "-ed" em uma palavra, como "call", indica o passado, mas tem o mesmo infinitivo de base (to call) que o tempo presente do verbo "calling".
Embora existam vários algoritmos de NLP, diferentes abordagens tendem a ser usadas para diferentes tipos de tarefas de linguagem. Por exemplo, cadeias de Markov ocultas tendem a ser usadas para marcação de parte da fala. Redes neurais recorrentes ajudam a gerar a sequência apropriada de texto. Os N-gramas, um modelo de linguagem simples (LM), atribuem probabilidades a sentenças ou frases para prever a precisão de uma resposta. Essas técnicas trabalham juntas para proporcionar compatibilidade com tecnologias populares, como chatbot ou produtos de reconhecimento de fala, como o Alexa da Amazon ou o Siri da Apple. No entanto, sua aplicação tem sido mais ampla do que isso, afetando outros setores, como educação e saúde.
Natural language understanding é um subconjunto do processamento de linguagem natural, que usa análise sintática e semântica de texto e fala para determinar o significado de uma frase. Sintaxe refere-se à estrutura gramatical de uma frase, enquanto semântica alude ao seu significado pretendido. A NLU também estabelece uma ontologia relevante: uma estrutura de dados que especifica as relações entre palavras e frases. Embora os humanos naturalmente façam isso durante as conversas, a combinação dessas análises é necessária para que uma máquina entenda o significado pretendido de diferentes textos.
Nossa capacidade de distinguir entre homônimos e homófonos ilustra bem as nuances da linguagem. Por exemplo, consideremos as duas frases a seguir:
Na primeira frase, a palavra "current" é um substantivo. O verbo que a precede (swimming) fornece contexto adicional ao leitor, permitindo-nos concluir que estamos nos referindo ao fluxo de água no oceano. A segunda frase usa a palavra "current", mas como um adjetivo. O substantivo que ela descreve (version) denota várias iterações de um relatório, o que nos permite determinar que estamos nos referindo ao status mais atualizado de um arquivo.
Essas abordagens também são comumente usadas em mineração de dados para entender as atitudes do consumidor. Em particular, a análise de sentimento permite que as marcas monitorem mais de perto o feedback, permitindo cluster comentários positivos e negativos nas mídias sociais e acompanhar o Net Promoter Scores. Ao avaliar comentários com sentimento negativo, as empresas são capazes de identificar e lidar com áreas problemáticas potenciais em seus produtos ou serviços de forma mais rápida.
A geração de linguagem natural é outro subconjunto do processamento de linguagem natural. Enquanto o natural language understanding se concentra na compreensão de leitura por computador, a geração de linguagem natural permite que os computadores escrevam. O NLG é o processo de produzir uma resposta de texto em linguagem humana com base em algumas entradas de dados. Esse texto também pode ser convertido em um formato de fala por meio de serviços de conversão de texto em fala.
O NLG também engloba recursos de sumarização de texto, que geram resumos a partir de documentos de entrada, mantendo a integridade das informações. A sumarização extrativa é a inovação de IA que alimenta a análise de pontos-chave usada no That’s Debatable.
Inicialmente, os sistemas de NLG usavam modelos para gerar texto. Com base em alguns dados ou consultas, um sistema NLG preenche os espaços em branco, como um jogo de Mad Libs. Mas, ao longo do tempo, os sistemas de geração de linguagem natural evoluíram com a aplicação de cadeias de Markov ocultas, redes neurais recorrentes e transformadores, permitindo a geração de texto mais dinâmica em tempo real.
Assim como na NLU, as aplicações de NLG precisam considerar regras de linguagem baseadas em morfologia, léxicos, sintaxe e semântica para fazer escolhas sobre como formular as respostas adequadamente. Elas lidam com isso em três etapas:
O processamento de linguagem natural e os subconjuntos têm inúmeras aplicações práticas no mundo atual, como diagnósticos na área da saúde ou atendimento ao cliente online.
