O que é classificação de texto?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

O que é classificação de texto?

A classificação de texto é uma tarefa de aprendizado de máquina que envolve a atribuição de rótulos predefinidos aos dados de texto para categorizá-los automaticamente em grupos. Enquanto as empresas e plataformas lidam com volumes cada vez maiores de texto não estruturado, a classificação de texto oferece uma maneira poderosa de organizar, interpretar e agir com base nos dados de texto em escala.

As organizações de hoje produzem uma enorme quantidade de dados de texto em sites, aplicativos e outras redes na forma de avaliações de clientes, postagens em redes sociais, documentos legais, e-mails e muito mais. Há insights ocultos nesses dados que poderiam ajudar a organização a tomar melhores decisões. A classificação de texto é a primeira etapa do processo.

Um ticket de suporte rotulado como “urgente” pode ser encaminhado para um fluxo de trabalho priorizado. Um e-mail rotulado como "spam" pode ser arquivado automaticamente. A avaliação de um cliente rotulada como "positiva" pode informar um relatório de sentimento do cliente sobre um novo produto. Os dados classificados podem ser agregados e visualizados para descobrir tendências e padrões que, de outra forma, permaneceriam ocultos.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Como funciona a classificação de texto

A classificação de texto é uma tarefa fundamental no processamento de linguagem natural (NLP), usado em uma ampla gama de aplicações. Um classificador de texto é um modelo de aprendizado de máquina que resolve diferentes problemas de classificação, como classificação de textos por tópico, sentimento ou intenção. Veja como funciona:

Classificação de texto supervisionado

Modelos supervisionados são normalmente usados para realizar a classificação de texto. O primeiro passo é reunir um grande conjunto de dados de amostras de texto. Podem ser e-mails, postagens em redes sociais, avaliações de clientes ou documentos.

Os anotadores humanos aplicam um rótulo a cada parte do texto. Por exemplo, sentimento "spam" ou "não spam" ou sentimento "positivo" versus "negativo". Esse conjunto de dados de treinamento rotulado forma a base para treinar um modelo de aprendizado de máquina. Normalmente, quanto mais dados, mais precisos são as saídas.

O pré-processamento do texto de entrada transforma o texto em um formato padronizado e legível por máquina. Os classificadores só podem trabalhar com texto traduzido em representações numéricas, muitas vezes usando embeddings de palavras ou arquiteturas de codificadores mais avançadas, que capturam o significado semântico da linguagem.

Os hiperparâmetros configuram variáveis como o número de camadas da rede neural, o número de neurônios por camada ou o uso de uma função de ativação. Esses hiperparâmetros são escolhidos antes do início do treinamento.

Em seguida, os dados são alimentados em um algoritmo de classificação, que aprende a associar padrões nos dados com seus rótulos associados.

Os algoritmos de classificação de texto incluem:

O modelo treinado é testado em um conjunto de dados de validação ou teste separado para avaliar o desempenho do modelo com métricas como exatidão, precisão, recall e pontuação F1, e avaliado em relação a benchmarks estabelecidos.

Um modelo de classificação de texto com bom desempenho pode ser integrado aos sistemas de produção, onde classifica o texto recebido em tempo real.

Modelos avançados podem melhorar ao longo do tempo, incorporando novos dados e retrainamento. Modelos de linguagem pré-treinados, como o BERT, já aprenderam uma compreensão profunda da linguagem e podem ser ajustados em tarefas de classificação específicas com relativamente poucos dados. O ajuste fino reduz o tempo de treinamento e aumenta o desempenho, especialmente para categorias complexas ou diferenciadas.

Classificação de texto não supervisionado

Embora os métodos supervisionados sejam muito mais comuns, os modelos podem ser treinados sem dados rotulados usando aprendizado não supervisionado. Em vez de saber a categoria correta para cada texto, o modelo tenta encontrar estrutura ou padrões nos dados por conta própria. Isso contrasta com a classificação de texto supervisionado, em que cada exemplo de treinamento é rotulado com uma categorização predefinida. Os métodos supervisionados são muito mais comuns.

Por exemplo, com uma técnica chamada agrupamento, o modelo agrupa partes semelhantes de texto em clusters com base em funcionalidades compartilhadas, que podem, então, ser interpretados como categorias.

AI Academy

Coloque a IA para trabalhar no serviço ao cliente

Veja como a IA generativa pode encantar os clientes com uma experiência mais integrada e aumentar a produtividade da organização nessas três áreas importantes: autoatendimento, agentes humanos e operações da central de contato.

Casos de uso de classificação de texto

Aqui estão algumas tarefas comuns de NLP que envolvem classificação:

  • Detecção de spam
  • Análise de sentimento
  • Classificação de tópicos
  • Detecção de intenção
  • Detecção de toxicidade e abuso

Detecção de spam

Os sistemas de detecção de spam analisam as mensagens recebidas e as classificam como "spam" ou "não spam". Eles usam uma combinação de regras, padrões estatísticos e técnicas de aprendizado de máquina para detectar e-mails de phishing, mensagens de marketing em massa de remetentes desconhecidos, links suspeitos, malware e muito mais.

Análise de sentimento

Análise de sentimento é o processo de análise de grandes volumes de texto para determinar seu sentimento. A análise de sentimento ajuda as organizações a determinar se as pessoas têm associações positivas ou negativas em pontos de contato digitais.

Um algoritmo de aprendizado de máquina pode avaliar o sentimento usando as palavras que aparecem no texto, bem como a ordem em que aparecem. Os desenvolvedores utilizam algoritmos de análise de sentimento para ensinar o software a identificar emoções em texto da mesma forma que os seres humanos.

Classificação de tópicos

O objetivo da classificação de tópicos é atribuir categorias de tópicos predefinidas a um texto. É comumente usado em gerenciamento de conteúdo, agregação, pesquisa acadêmica e análise de feedback de clientes para organizar grandes volumes de texto não estruturado.

Detecção de intenção

Enquanto a classificação de tópicos informa sobre o que é uma mensagem, a detecção de intenção informa o que o usuário está tentando fazer. A detecção de intenção é útil para automatizar conversas e tarefas de roteamento no atendimento ao cliente ou comércio eletrônico. Sem isso, os sistemas teriam dificuldades para fornecer assistência significativa.

Detecção de toxicidade e abuso

A detecção de toxicidade e abuso é uma tarefa de classificação de texto que se concentra na identificação e sinalização de conteúdo prejudicial, ofensivo ou abusivo online. Isso pode incluir linguagem de ódio, ameaça, assédio, texto obsceno ou inadequado de outra forma. Grandes plataformas de redes sociais usam algoritmos de classificação para ajudar sua equipe de suporte a gerenciar enormes bases globais de usuários.

Frameworks, ferramentas e APIs

Há muitas ferramentas de código aberto disponíveis para criar classificadores de texto. Frameworks como o TensorFlow e o PyTorch oferecem componentes para criar e treinar modelos. Por exemplo, um classificador baseado no TensorFlow pode usar uma API Keras com módulos como valid_data, optimizer e loss para treinar um modelo em dados rotulados. O PyTorch, uma biblioteca de aprendizado de máquina baseada no Python conhecida por sua flexibilidade, também é amplamente usada com utilitários como o DataLoader e nn.Module.

Enquanto os classificadores tradicionais usam rótulos fixos, o surgimento de grandes modelos de linguagem (LLMs) introduziu abordagens generativas para a classificação. Os modelos podem ser solicitados a produzir rótulos e explicações em linguagem natural. Por exemplo, é possível solicitar um LLM com uma frase e pedir que ele classifique o sentimento, gere uma justificativa ou sugira categorias — tudo isso sem treinamento adicional.

Com a aceleração da GPU, os tempos de treinamento são drasticamente reduzidos, especialmente para grandes conjuntos de dados ou arquiteturas complexas de deep learning. Pesquisadores e desenvolvedores frequentemente compartilham seus pipelines e modelos de treinamento no GitHub.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real