Rotulagem de dados

menu icon

Rotulagem de dados

Conheça os usos e benefícios da rotulagem de dados, incluindo diferentes abordagens e melhores práticas.

O que é rotulagem de dados?

A rotulagem de dados, ou anotação de dados, faz parte da etapa de pré-processamento para o desenvolvimento de um modelo de aprendizado de máquina (AM). Para que os modelos de aprendizado de máquina façam previsões precisas, é preciso identificar os dados brutos (ou seja, imagens, arquivos de texto, vídeos) para depois adicionar um ou mais rótulos a eles, especificando seu contexto.

A rotulagem de dados está na base de diferentes casos de aprendizado de máquina e deep learning, incluindo visão computacional e processamento de linguagem natural (NLP).

Como funciona a rotulagem de dados?

As empresas integram software, processos e anotadores de dados para limpar, estruturar e rotular dados. Esses dados de treinamento se tornam a base para modelos de aprendizado de máquina. Os rótulos permitem que os analistas isolem variáveis dentro dos conjuntos de dados, viabilizando seleção dos melhores preditores de dados para os modelos de AM. Os rótulos identificam os vetores de dados apropriados que devem ser extraídos para o treinamento do modelo. Com isso, ele aprende a fazer as melhores previsões.

Além da assistência de máquina, as tarefas de rotulagem de dados requerem a interação humana (“human-in-the-loop” – HITL). A HITL aproveita a avaliação de “rotuladores de dados” humanos para criar, treinar, refinar e testar modelos de AM. Eles ajudam a orientar o processo de rotulagem de dados, alimentando os conjuntos de dados dos modelos que mais se aplicam a um determinado projeto.

Dados rotulados versus dados não rotulados

Os computadores utilizam dados rotulados e não rotulados para treinar modelos de AM, mas qual é a diferença?

  • Os dados rotulados são usados no aprendizado supervisionado, enquanto os não rotulados são usados no aprendizado não supervisionado .
  • Dados rotulados são mais difíceis de adquirir e armazenar (ou seja, são demorados e caros), já dados não rotulados são mais fáceis de adquirir e armazenar.
  • Os dados rotulados podem ser usados para determinar insights práticos (por exemplo, tarefas de previsão), enquanto os não rotulados têm um uso mais limitado. Métodos de aprendizagem sem supervisão podem ajudar a descobrir novos clusters de dados, levando a novas categorizações na rotulagem.

Os computadores também podem usar dados combinados para aprendizado parcialmente supervisionado, reduzindo a necessidade de dados rotulados manualmente e fornecendo um grande conjunto de dados anotados.

Abordagens para a rotulagem de dados

A rotulagem de dados é uma etapa essencial no desenvolvimento de um modelo de aprendizado de máquina de alto desempenho. Embora a rotulagem pareça simples, sua implementação nem sempre é fácil. Por isso, as empresas devem considerar diversos fatores e métodos para determinar a melhor abordagem para a rotulagem. Como cada método de rotulagem de dados tem seus prós e contras, recomenda-se uma avaliação detalhada da complexidade da tarefa, e também da dimensão, do escopo e da duração do projeto.

Estas são algumas maneiras de rotular seus dados:

  • Rotulagem interna: a utilização de especialistas em ciência de dados da própria empresa simplifica o rastreamento, proporciona maior precisão e aumenta a qualidade. Entretanto, esta abordagem normalmente requer mais tempo e privilegia grandes empresas com vastos recursos.
  • Rotulagem sintética: esta abordagem gera novos dados de projetos a partir de conjuntos de dados preexistentes, o que melhora a qualidade de dados e reduz o tempo. Entretanto, ela requer uma grande capacidade de computação, o que pode elevar o custo.
  • Rotulagem programática: este processo de rotulagem de dados automatizado utiliza scripts para reduzir o tempo e a necessidade de anotação humana. Entretanto, a possibilidade de problemas técnicos requer que a HITL continue a fazer parte do processo de garantia de qualidade (QA).
  • Terceirização: esta pode ser a melhor escolha para projetos temporários de alto nível, mas o desenvolvimento e o gerenciamento de um fluxo de trabalho para isso também podem levar tempo. Embora as plataformas de profissionais autônomos forneçam informações detalhadas dos candidatos para facilitar a triagem, a contratação de equipes de rotulagem de dados gerenciadas proporciona pessoal previamente verificado e ferramentas de rotulagem de dados prontas.
  • Crowdsourcing: esta abordagem é mais rápida e mais econômica devido à sua capacidade de realizar microtarefas e à sua distribuição baseada na web. Entretanto, a qualidade da mão de obra, a garantia de qualidade e o gerenciamento de projetos variam entre as diferentes plataformas de crowdsourcing. Um dos exemplos mais famosos de rotulagem de dados com base em crowdsourcing é o Recaptcha. Ele foi um projeto duplo, visto que controla os bots e ao mesmo tempo melhora a anotação de dados das imagens. Por exemplo, um aviso do Recaptcha pede a um usuário que identifique todas as imagens contendo um carro para provar que é humano. Depois, o programa pode certificar-se com base nos resultados de outros usuários. A contribuição desses usuários possibilitou um banco de dados de rótulos para uma série de imagens.

Benefícios e desafios da rotulagem de dados

A contrapartida geral da rotulagem de dados é que, embora possa diminuir o tempo que a empresa leva para escalar, o custo pode ser alto. Dados mais precisos geralmente melhoram as previsões do modelo. Assim, o valor que ela proporciona geralmente vale bem o alto custo do investimento. Ao fornecer mais contexto aos conjuntos de dados, a anotação de dados ela melhora o desempenho da análise exploratória de dados, e também aplicações de aprendizado de máquina (AM) e de inteligência artificial (IA). Por exemplo, a rotulagem de dados gera resultados de busca mais relevantes em plataformas de mecanismos de busca e melhores recomendações de produtos em plataformas de comércio eletrônico. Vamos nos aprofundar nos outros principais benefícios e desafios:

Benefícios

A rotulagem de dados proporciona a usuários, equipes e empresas maior contexto, qualidade e usabilidade. De forma mais específica, pode-se esperar:

  • Predições mais precisas: A rotulagem de dados precisa assegura maior garantia de qualidade dentro dos algoritmos de aprendizado de máquina, permitindo que o modelo treine e gere o resultado esperado. Caso contrário, como diz o velho ditado, “o que começa mal, termina mal” ("garbage in, garbage out"). Dados rotulados adequadamente  fornecem a “verdade fundamental” (ou seja, o modo como os rótulos refletem cenários do “mundo real”) para testar e iterar os modelos posteriores.
  • Melhor usabilidade dos dados: A rotulagem de dados também pode melhorar a usabilidade das variáveis de dados dentro de um modelo. Por exemplo, você pode reclassificar uma variável de categoria como uma variável binária para que um modelo possa consumi-la melhor.  Essa agregação de dados pode otimizar o modelo, ao reduzir o número de variáveis do modelo ou permitir a inclusão de variáveis de controle. Não importa se os dados são usados para construir modelos de visão computacional (ou seja, colocando caixas delimitadoras em torno de objetos) ou modelos de NLP (ou seja, classificando texto para impressão social), a utilização de dados de alta qualidade é a principal prioridade.

Desafios

A rotulagem de dados tem seus desafios. Em especial, alguns dos desafios mais comuns são:

  • Cara e demorada: Embora a rotulagem de dados seja essencial para modelos de aprendizado de máquina, ela pode ter um custo alto tanto do ponto de vista de recursos quanto de tempo. Se uma empresa adota uma abordagem mais automatizada, as equipes de engenharia ainda precisarão criar pipelines de dados antes do seu processamento, e a rotulagem manual será quase sempre cara e demorada.
  • Sujeita a erros humanos: Essas abordagens de rotulagem também estão sujeitas a erros humanos (por exemplo, erros de codificação, erros de entrada manual), o que pode diminuir a qualidade dos dados. Isso, por sua vez, leva a um processamento e modelagem de dados imprecisos. As verificações de garantia de qualidade são essenciais para manter a qualidade dos dados.

Melhores práticas para rotulagem de dados

Seja qual for a abordagem, as melhores práticas a seguir otimizam a precisão e eficiência da rotulagem de dados:

  • As interfaces de tarefas intuitivas e aperfeiçoadas minimizam a carga cognitiva e a mudança de contexto para rotuladores humanos.
  • Consenso: mede a taxa de concordância entre vários rotuladores (humanos ou máquinas). Uma pontuação de consenso é calculada dividindo o total de rótulos concordantes pelo número total de rótulos por ativo.
  • Auditoria de rótulos: verifica a precisão dos rótulos e os atualiza quando necessário.
  • Transferência de aprendizado: Utiliza um ou mais modelos previamente treinados de um conjunto de dados e os aplica a outro. Isso pode incluir o aprendizado multitarefa, no qual várias tarefas são aprendidas paralelamente.
  • Aprendizado ativo: uma categoria de algoritmos de aprendizado de máquina e subconjunto de aprendizado parcialmente supervisionado que ajuda o ser humano a identificar os conjuntos de dados mais apropriados. A abordagem de aprendizado ativo inclui:
    • Síntese de consultas de membros: gera uma instância sintética para a qual solicita um rótulo.
    • Amostragem baseada em pool: classifica todas as instâncias não rotuladas de acordo com a medição da capacidade de informação e seleciona as melhores consultas para a anotação.
    • Amostragem seletiva baseada em fluxo: seleciona instâncias não rotuladas uma a uma, e as rotula ou as ignora, dependendo de sua capacidade de informação ou incerteza.

Casos de uso da rotulagem de dados

Embora a rotulagem de dados possa melhorar a precisão, a qualidade e a usabilidade em diversos contextos em todos os setores, alguns dos casos de uso mais destacados são:

  • Visão computacional: um campo de IA que usa dados de treinamento para construir um modelo de visão computacional que permite segmentar imagens e automatizar categorias, identifica pontos-chave em uma imagem e detecta a localização de objetos. Aliás, a IBM oferece uma plataforma de visão computacional, a Maximo Visual Inspection, que permite aos especialistas no assunto (PMEs) rotular e treinar modelos de visão de deep learning que podem ser implementados em nuvem, dispositivos de edge e data centers locais. A visão computacional é utilizada por vários setores, desde energia e serviços públicos até manufaturas e indústria automotiva. Até 2022, espera-se que este campo em expansão atinja um valor de mercado de US$ 48,6 bilhões.
  • Processamento de linguagem natural (NLP): um ramo de IA que combina linguística computacional com estatística, aprendizado de máquina, e modelos de deep learning para identificar e marcar seções importantes do texto que geram dados de treinamento para análise de impressões, reconhecimento de nome da entidade e reconhecimento de caractere ótico. A NLP está sendo cada vez mais utilizada em soluções corporativas como detecção de spam, tradução de máquina, reconhecimento de voz, sumarização de texto, assistentes virtuais e chatbots, e em sistemas GPS operados por voz. Isso faz da NLP um componente fundamental na evolução dos processos de negócios críticos.

A IBM e a rotulagem de dados

A IBM oferece mais recursos para ajudar a superar os desafios e maximizar sua experiência geral com a rotulagem de dados.

  • IBM Cloud Annotations : uma ferramenta colaborativa de anotação de imagens de código aberto que usa modelos de IA para ajudar os desenvolvedores a criarem conjuntos de dados de imagens totalmente rotuladas, em tempo real, sem desenhar os rótulos manualmente.
  • IBM Cloud Object Storage: criptografada em repouso e acessível de qualquer lugar, armazena dados sensíveis e protege a integridade, a disponibilidade e a confidencialidade dos dados usando o Algoritmo de Dispersão de Informações (IDA) e a Transformação Tudo ou Nada (AONT).
  • IBM Watson: plataforma de IA com ferramentas e serviços orientados por NLP que permitem às organizações otimizar o tempo dos funcionários, automatizar processos de negócios complexos e obter insights de negócios vitais para prever resultados futuros.

Não importa o tamanho de seu projeto ou cronograma, com a IBM Cloud e o IBM Watson, você pode melhorar seus processos de treinamento de dados, expandir seus esforços de classificação de dados e simplificar modelos complexos de previsão.