O que é processamento de linguagem natural (PLN)?
Conheça o watsonx.ai
ilustração mostrando integração de tencologias de IA para o natural language processing (NLP)
O que é processamento de linguagem natural (PLN)?

O processamento de linguagem natural (PLN) é uma ramificação da inteligência artificial que faz com que os computadores possam entender textos e palavras faladas da mesma forma que humanos podem.

O PLN combina linguística computacional, modelagem baseada em regras da linguagem humana, com modelos estatísticos, de machine learning e de deep learning. Juntas, essas tecnologias permitem que os computadores processem a linguagem humana na forma de dados de texto ou de voz e 'entendam' seu significado integral, completo com a intenção e o sentimento do locutor ou do escritor.

O PLN tem origem em inglês: natural language processing (NLP). Ele aciona programas de computador que convertem texto de um idioma para outro, respondem a comandos de fala e resumem grandes volumes de texto rapidamente, até mesmo em tempo real.

Podemos encontrar exemplos de PLN no nosso dia a dia em dispositivos como GPS operados por voz, assistentes digitais, software de ditado de fala para texto, chatbots de atendimento ao cliente e outras conveniências do consumidor. Além disso, o PLN também desempenha um papel crescente em soluções corporativas que ajudam a aperfeiçoar operações de negócios, aumentar a produtividade do funcionário e simplificar processos de negócios de missão crítica.

Como funciona o processamento de linguagem natural (PLN)?

A linguagem humana é repleta de ambiguidades que tornam incrivelmente difícil criar software que determine com precisão o significado pretendido de dados de texto ou de voz.

Homônimos, homófonos, sarcasmo, expressões idiomáticas, metáforas, gramática e exceções de uso, variações na estrutura de sentenças, apenas algumas das irregularidades da linguagem humana que humanos levam anos para aprender, mas que os programadores devem ensinar aplicativos orientados por linguagem natural a reconhecer e entender com precisão desde o início, se esses aplicativos forem para ser úteis.

Várias tarefas do PLN detalham os dados de texto e voz humanos de maneira que ajudam o computador a entender o que ele está ingerindo. Alguns desses exemplos incluem o seguinte:

  • Reconhecimento de voz, também chamado de fala para texto (speech-to-text), é a tarefa de converter dados de voz para dados de texto de forma confiável. O reconhecimento de voz é necessário para qualquer aplicativo que segue comandos de voz ou responde a perguntas faladas. O que torna o reconhecimento de voz especialmente desafiador é a maneira como as pessoas falam, ou seja, rapidamente, pronunciando palavras juntas, com ênfase e entonação diferentes, em sotaques diferentes e, muitas vezes, usando gramática incorreta.

  • Identificação da parte do discurso, também chamada de identificação gramatical, é o processo de determinar a parte da fala de uma palavra ou parte de texto em particular com base em seu uso e contexto. A parte do discurso identifica 'andar' como um verbo em 'eu posso andar rapidamente' e como um substantivo em 'ela mora no sétimo andar'

  • Desambiguação do sentido da palavra é a seleção do significado de uma palavra com múltiplos significados por meio de um processo de análise semântica que determina a palavra que faz mais sentido no contexto dado. Por exemplo, a desambiguação do sentido da palavra ajuda a distinguir o significado do verbo 'bancar' em 'bancar o inteligente' (fingir) vs. 'bancar os estudos' (financiar).

  • Named Entity Recognition ou NEM, identifica palavras ou frases como entidades úteis. O NEM identifica 'Kentucky' como uma localização ou 'Fred' como um nome masculino.

  • Resolução de correferência é a tarefa de identificar se e quando duas palavras referem-se à mesma entidade. O exemplo mais comum é determinar a pessoa ou o objeto ao qual um determinado pronome se refere (por exemplo, 'ela' = 'Maria'), mas também pode envolver a identificação de uma metáfora ou expressão idiomática no texto (por exemplo, uma instância em que 'urso' não é um animal, mas uma pessoa grande e com muitos pelos).

  • Análise de sentimentos  tenta extrair qualidades subjetivas, como atitudes, emoções, sarcasmo, confusão, suspeita, do texto.

  • Geração de linguagem natural  às vezes é descrita como o oposto do reconhecimento de voz ou da fala-para-texto. Ela é a tarefa de colocar informações estruturadas em linguagem humana.

Veja a postagem do blog "NLP vs. NLU vs. NLG: as diferenças entre três conceitos de processamento de linguagem natural" para uma visão mais profunda de como esses conceitos se relacionam.

Ferramentas e abordagens do PLN

Python e o kit de ferramentas de linguagem natural (NLTK)
 

A linguagem de programação Python fornece uma ampla variedade de ferramentas e bibliotecas para abordar tarefas de PLN específicas. Muitas delas podem ser encontradas no Kit de ferramentas de linguagem natural, ou NLTK, uma coleção de bibliotecas, programas e recursos de educação de software livre para desenvolver programas de PLN.

O NLTK inclui bibliotecas para muitas das tarefas de PLN listadas acima, além de bibliotecas para subtarefas, como análise sintática de sentenças, segmentação de palavras, stemming e lematização (métodos de cortar palavras até suas origens) e tokenização (para dividir frases, sentenças, parágrafos e passagens em tokens que ajudam o computador a entender melhor o texto). Inclui também bibliotecas para implementar recursos, como o raciocínio semântico, a capacidade de chegar a conclusões lógicas com base em fatos extraídos do texto.
 

PLN estatístico, machine learning e deep learning
 

Os primeiros aplicativos de PLN eram sistemas baseados em regras, codificados manualmente, que podiam executar parte das tarefas de PLN, mas não eram capazes de ajustar a escala facilmente para acomodar um fluxo aparentemente sem fim de exceções ou de lidar com os volumes crescentes de dados de texto e voz.

Introduza o PLN estatístico, que combina algoritmos de computador com modelos de machine learning e deep learning para extrair, classificar e rotular automaticamente elementos de dados de texto e voz e, em seguida, designar uma probabilidade estatística para cada significado possível desses elementos. Atualmente, modelos de deep learning e técnicas de aprendizado baseadas em redes neurais convolucionais (CNNs) e redes neurais recorrentes (RNNs) permitem sistemas de PLN que 'aprendem' à medida que trabalham e extraem significado cada vez mais preciso de enormes volumes de conjuntos de dados de texto e voz brutos, não estruturados e não rotulados. 

Para uma visão mais detalhada sobre as nuances entre essas tecnologias e suas abordagens de aprendizado, consulte "IA vs. Machine Learning vs. Deep Learning vs. Redes neurais: qual é a diferença?"

Casos de uso do PLN

O processamento de linguagem natural é a força motriz por trás da inteligência de máquina em muitos aplicativos modernos do mundo real. Veja alguns exemplos:

  • Detecção de spam: você pode não pensar em detecção de spam como sendo uma solução de NLP, mas as melhores tecnologias de detecção de spam usam os recursos de classificação de texto do NLP para escanear e-mails quanto ao idioma que geralmente indica spam ou phishing.

    Esses indicadores podem incluir uso excessivo de termos financeiros, gramática ruim característica, linguagem ameaçadora, urgência não adequada, nomes de empresas com ortografia incorreta e muitos outros. A detecção de spam é um dos poucos problemas do NLP que os especialistas consideram 'em grande parte resolvido' (embora você possa argumentar que isso não corresponde à sua experiência com e-mail).

  • Tradução de máquina: o Google Tradutor é um exemplo de tecnologia de natural language processing amplamente disponível no trabalho. Uma tradução de máquina verdadeiramente útil envolve mais do que substituir palavras em um idioma por palavras de outro.  Uma tradução eficaz deve capturar com precisão o significado e o tom do idioma de entrada e traduzi-lo para um texto com o mesmo significado e impacto desejado no idioma de saída.

    Ferramentas de tradução de máquina estão progredindo bem em termos de precisão. Uma ótima maneira de testar qualquer ferramenta de tradução de máquina é traduzir texto para um idioma e, em seguida, de volta para o original. Um exemplo clássico muito citado: não muito tempo atrás, traduzir "O espírito está pronto, mas a carne é fraca" do inglês para o russo e de volta resultou "A vodka é boa, mas a carne é podre." Hoje, o resultado é "O espírito deseja, mas a carne é fraca”, o que não é perfeito, mas inspira muito mais confiança na tradução do inglês para o russo.

  • Agentes virtuais e chatbots: agentes virtuais como a Siri, da Apple, e Alexa, da Amazon, usam reconhecimento de voz para reconhecer padrões em comandos de voz e geração de linguagem natural para responder com a ação apropriada ou comentários úteis.

    Chatbots fazem a mesma mágica em resposta às entradas de texto digitadas. Os melhores chatbots também aprendem a reconhecer dicas contextuais sobre solicitações humanas e as usam para fornecer respostas ou opções ainda melhores ao longo do tempo. O próximo aprimoramento destes aplicativos é responder a perguntas, a capacidade de responder às nossas perguntas, antecipadas ou não, com respostas relevantes e úteis em suas próprias palavras.

  • Análise de sentimentos da mídia social: o NLP tornou-se uma ferramenta de negócios essencial para descobrir insights de dados ocultos de canais de mídia social. A análise de sentimentos pode analisar a linguagem usada em postagens, respostas, avaliações e muito mais na mídia social para extrair atitudes e emoções em resposta a produtos, promoções e eventos, sendo que empresas podem usar essas informações ao projetar produtos, campanhas de publicidade e muito mais.

  • Sumarização de texto: a sumarização de texto usa técnicas de NLP para compilar grandes volumes de texto digital e criar resumos e sinopses para índices, bancos de dados de pesquisas ou para leitores ocupados que não têm tempo de ler o texto completo. Os melhores aplicativos de sumarização de texto usam raciocínio semântico e geração de linguagem natural (GLN) para incluir contexto e conclusões úteis em resumos.
Soluções relacionadas
Soluções de Natural Language Processing do Watson

Encontre respostas e insights críticos a partir de seus dados de negócios usando tecnologia de procura corporativa impulsionada por IA.

Conheça o IBM Watson Natural Language Processing
Watson Natural Language Understanding

O serviço de processamento de linguagem natural (PLN) para análise avançada de texto.

Conheça o IBM Watson Natural Language Understanding
watsonx assistant

A plataforma líder de mercado em inteligência artificial conversacional onde você pode criar agentes de voz e chatbots.

Conheça o IBM watsonx assistant
Recursos Processamento de linguagem natural com Watson

Saiba mais sobre os diferentes casos de uso de PLN neste explicador de PNL.

Um guia para iniciantes sobre o processamento de linguagem natural

Descubra como o processamento de linguagem natural pode ajudá-lo a conversar de forma mais natural com computadores

Uma introdução ao Watson Natural Language Processing

Use os serviços de processamento de linguagem natural do IBM Watson para desenvolver aplicativos cada vez mais inteligentes

IA generativa para desenvolvedores

Aprenda conceitos fundamentais de inteligência artificial e IA generativa, incluindo engenharia de prompts, modelos de linguagens amplos e os melhores projetos open source.

O que é CRM?

CRM é um software de gerenciamento de relacionamento com o cliente. Para resolver problemas, oferecer suporte a vendas e promover iniciativas de ERP.

O que é internet das coisas (IoT)?

Saiba mais sobre a internet das coisas e como as empresas estão utilizando os dados dos dispositivos para aumentar a eficiência operacional em todos os setores.

Dê o próximo passo

A IBM inovou no espaço da inteligência artificial ao ser pioneira em ferramentas e serviços orientados a PLN que permite que organizações automatizem seus processos de negócios complexos enquanto obtêm insights essenciais de negócios.

Analise texto em formatos de dados não estruturados, incluindo HTML, páginas da web, mídia social e muito mais. Aumente seu entendimento da linguagem humana ao utilizar este kit de ferramentas de linguagem natural para identificar conceitos, palavras-chave, categorias, semântica e emoções, assim como para executar classificação de texto, extração de entidade, Named Entity Recognition (NER), análise de sentimentos e sumarização.

Conheça o IBM Watson Natural Language Understanding hoje