Minha IBM Efetue login Inscreva-se

Início

topics

data labeling

O que é rotulagem de dados?

O que é rotulagem de dados?

Explore a solução de rotulagem de dados da IBM Inscreva-se para receber atualizações sobre IA
Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráficos a seguir
O que é rotulagem de dados?

O que é rotulagem de dados?

A rotulagem de dados, ou anotação de dados, faz parte da etapa de pré-processamento no desenvolvimento de um modelo de aprendizado de máquina (ML).

A rotulagem de dados requer a identificação de dados brutos (ou seja, imagens, arquivos de texto, vídeos) e, em seguida, a adição de um ou mais rótulos a esses dados para especificar seu contexto para os modelos, permitindo que o modelo de aprendizado de máquina faça previsões precisas.

A rotulagem de dados fundamenta diferentes casos de uso de aprendizado de máquina e deep learning, incluindo visão computacional e processamento de linguagem natural (NLP).

O armazenamento de dados para IA

Conheça o poder da integração de uma estratégia de data lakehouse em sua arquitetura de dados, incluindo aprimoramentos para escalar oportunidades de IA e otimização de custos.

Conteúdo relacionado Registre-se para receber o ebook sobre IA generativa
Como funciona a rotulagem de dados?

Como funciona a rotulagem de dados?

As empresas integram software, processos e anotadores de dados para limpar, estruturar e rotular dados. Esses dados de treinamento se tornam a base para os modelos de aprendizado de máquina. Esses rótulos permitem que analistas isolem variáveis dentro dos conjuntos de dados, o que, por sua vez, possibilita a seleção dos melhores preditores de dados para os modelos de ML. Os rótulos identificam os vetores de dados apropriados a serem utilizados no treinamento do modelo, onde o modelo, então, aprende a fazer as melhores previsões.

Junto com a assistência de máquinas, as tarefas de rotulagem de dados exigem a participação de "human-in-the-loop (HITL)". O HITL aproveita o julgamento de "rotuladores de dados" humanos para criar, treinar, ajustar e testar modelos de ML. Eles ajudam a guiar o processo de rotulagem de dados alimentando os modelos com conjuntos de dados mais aplicáveis a um determinado projeto.

Dados rotulados vs. dados não rotulados

Os computadores usam dados rotulados e não rotulados para treinar modelos de ML, mas qual é a diferença?

  • Os dados rotulados são usados em aprendizado supervisionado, enquanto os dados não rotulados são usados em aprendizado não supervisionado.
  • Os dados rotulados são mais difíceis de adquirir e armazenar (ou seja, consomem mais tempo e são caros), enquanto os dados não rotulados são mais fáceis de adquirir e armazenar.
  • Os dados rotulados podem ser usados para determinar insights acionáveis (por exemplo, tarefas de previsão), enquanto os dados não rotulados são mais limitados em sua utilidade. Métodos de aprendizado não supervisionado podem ajudar a descobrir novos agrupamentos de dados, permitindo novas categorizações durante a rotulagem.

Os computadores também podem usar dados combinados para aprendizado semissupervisionado, o que reduz a necessidade de dados rotulados manualmente, ao mesmo tempo em que fornece um grande conjunto de dados anotados.

Abordagens de rotulagem de dados

Abordagens de rotulagem de dados

A rotulagem de dados é uma etapa crítica no desenvolvimento de um modelo de ML de alto desempenho. Embora a rotulagem pareça simples, nem sempre é fácil de implementar. Como resultado, as empresas devem considerar múltiplos fatores e métodos para determinar a melhor abordagem para a rotulagem. Como cada método de rotulagem de dados tem seus prós e contras, é recomendada uma avaliação detalhada da complexidade da tarefa, bem como do tamanho, escopo e duração do projeto.

Aqui estão alguns caminhos para rotular seus dados:

  • Rotulagem interna - Utilizar especialistas em ciência de dados internos simplifica o rastreamento, proporciona maior precisão e aumenta a qualidade. No entanto, essa abordagem normalmente requer mais tempo e favorece grandes empresas com recursos extensivos.
  • Rotulagem sintética - Essa abordagem gera novos dados do projeto a partir de conjuntos de dados preexistentes, o que melhora a qualidade dos dados e a eficiência de tempo. No entanto, a rotulagem sintética requer grande poder computacional, o que pode aumentar os custos.
  • Rotulagem programática - Esse processo automatizado de rotulagem de dados usa scripts para reduzir o tempo e a necessidade de anotação humana. No entanto, a possibilidade de problemas técnicos exige que o HITL permaneça como parte do processo de garantia de qualidade (QA).
  • Terceirização - Esta pode ser uma escolha ideal para projetos temporários de alto nível, mas desenvolver e gerenciar um fluxo de trabalho orientado para freelancers pode consumir muito tempo. Embora as plataformas de freelancers forneçam informações abrangentes sobre os candidatos para facilitar o processo de análise, a contratação de equipes de rotulagem de dados gerenciados fornece uma equipe pré-selecionada e ferramentas de rotulagem de dados criadas previamente.
  • Crowdsourcing - Essa abordagem é mais rápida e econômica devido à sua capacidade de utilizar microtarefas e distribuição baseada na web. No entanto, a qualidade dos trabalhadores, QA e o gerenciamento do projeto variam entre as plataformas de crowdsourcing. Um dos exemplos mais famosos de rotulagem de dados por crowdsourcing é o Recaptcha. Esse projeto tinha duas vertentes, pois controlava bots e, ao mesmo tempo, melhorava a anotação de dados de imagens. Por exemplo, um prompt do Recaptcha solicitaria que um usuário identificasse todas as fotos contendo um carro para provar que eram humanas e, em seguida, esse programa poderia se verificar com base nos resultados de outros usuários. Os inputs desses usuários forneceram um banco de dados de rótulos para uma variedade de imagens.
Benefícios e desafios da rotulagem de dados

Benefícios e desafios da rotulagem de dados

A desvantagem geral da rotulagem de dados é que, embora possa diminuir o tempo de escala de uma empresa, tende a ter um custo. Dados mais precisos geralmente melhoram as previsões do modelo, então, apesar de seu alto custo, o valor que oferece normalmente compensa o investimento. Como a anotação de dados oferece mais contexto aos conjuntos de dados, ela melhora o desempenho da análise exploratória de dados, bem como das aplicações de aprendizado de máquina (ML) e inteligência artificial (IA). Por exemplo, a rotulagem de dados produz resultados de pesquisa mais relevantes em plataformas de motores de busca e melhores recomendações de produtos em plataformas de e-commerce. Vamos explorar mais profundamente outros benefícios e desafios importantes:

Benefícios

A rotulagem de dados oferece a usuários, equipes e empresas maior contexto, qualidade e usabilidade. Mais especificamente, você pode esperar:

  • Previsões mais precisas: a rotulagem precisa de dados garante uma melhor garantia de qualidade dentro dos algoritmos de machine learning, permitindo que o modelo treine e produza a produção esperada. Caso contrário, como diz o velho ditado, "entra lixo, sai lixo". Dados devidamente rotulados fornecem a "verdade fundamental" (ou seja, como os rótulos refletem cenários do "mundo real") para testar e iterar modelos subsequentes.
  • Melhor usabilidade dos dados: a rotulagem de dados também pode melhorar a usabilidade das variáveis de dados dentro de um modelo. Por exemplo, você pode reclassificar uma variável categórica como uma variável binária para torná-la mais acessível para o modelo. Agregar dados dessa forma pode otimizar o modelo ao reduzir o número de variáveis ou permitir a inclusão de variáveis de controle. Seja usando dados para construir modelos de visão computacional (por exemplo, colocando caixas delimitadoras em torno de objetos) ou modelos de NLP (por exemplo, classificando textos para análise de sentimentos sociais), utilizar dados de alta qualidade é uma prioridade.

Desafios

A rotulagem de dados não está isenta de desafios. Em particular, alguns dos desafios mais comuns são:

  • Custo elevado e tempo excessivo: embora a rotulagem de dados seja fundamental para os modelos de aprendizado de máquina, pode ser dispendiosa tanto em termos de recursos quanto de tempo. Se uma empresa optar por uma abordagem mais automatizada, as equipes de engenharia ainda precisarão configurar pipelines de dados antes do processamento, e a rotulagem manual quase sempre será cara e demorada.
  • Possibilidade de erros humanos: essas abordagens de rotulagem também estão sujeitas a erros humanos (por exemplo, erros de codificação, erros de entrada manual), o que pode reduzir a qualidade dos dados. Isso, por sua vez, leva a processamento e modelagem de dados imprecisos. Verificações de garantia de qualidade são essenciais para manter a qualidade dos dados.
Melhores práticas de rotulagem de dados

Melhores práticas de rotulagem de dados

Independentemente da abordagem, as seguintes práticas recomendadas otimizam a precisão e eficiência da rotulagem de dados:

  • Interfaces de tarefas intuitivas e otimizadas minimizam a carga cognitiva e a troca de contexto para os rotuladores humanos.
  • Consenso: mede a taxa de concordância entre vários rotuladores (humanos ou máquinas). Uma pontuação de consenso é calculada dividindo a soma dos rótulos concordantes pelo número total de rótulos por ativo.
  • Auditoria de rótulos: verifica a precisão dos rótulos e os atualiza conforme necessário.
  • Aprendizagem por transferência: pega um ou mais modelos pré-treinados de um conjunto de dados e os aplica a outro. Isso pode incluir aprendizado multitarefa, no qual várias tarefas são aprendidas em conjunto.
  • Aprendizado ativo: uma categoria de algoritmos de ML e subconjunto de aprendizado semi-supervisionado que ajuda os humanos a identificar os conjuntos de dados mais apropriados. As abordagens de aprendizado ativo incluem:
    • Síntese de consulta de associação - Gera uma instância sintética e solicita um rótulo para ela.
    • Amostragem baseada em pool - Classifica todas as instâncias não rotuladas de acordo com uma medição de informatividade e seleciona as melhores consultas para anotação.
    • Amostragem seletiva baseada em fluxo - Seleciona instâncias não rotuladas uma a uma e as rotula ou ignora, dependendo de sua informatividade ou incerteza.
Casos de uso da rotulagem de dados

Casos de uso da rotulagem de dados

Embora a rotulagem de dados possa aumentar a precisão, qualidade e usabilidade em diversos contextos e setores, seus casos de uso mais proeminentes incluem:

  • Visão computacional: um campo da IA que utiliza dados de treinamento para construir um modelo de visão computacional que possibilita a segmentação de imagens, a automação de categorias, identifica pontos-chave em uma imagem e detecta a localização de objetos. De fato, a IBM oferece uma plataforma de visão computacional, Maximo Visual Inspection, que permite que especialistas em assuntos específicos (SMEs) rotulem e treinem modelos de visão por aprendizado profundo que podem ser implementados na nuvem, dispositivos de edge e centros de dados locais. A visão computacional é usada em vários setores, desde energia e utilidades até manufatura e setor automotivo. Até 2022, espera-se que esse campo em crescimento alcance um valor de mercado de USD 48,6 bilhões.
  • Processamento de linguagem natural (NLP): um ramo da IA que combina linguística computacional com modelos estatísticos, de aprendizado de máquina e de deep learning para identificar e marcar seções importantes de texto que geram dados de treinamento para análise de sentimentos, reconhecimento de nomes de entidades e reconhecimento óptico de caracteres. O NLP está sendo cada vez mais utilizado em soluções empresariais como detecção de spam, tradução automática, reconhecimento de fala, sumarização de textos, assistentes virtuais e chatbots, além de sistemas de GPS operados por voz. Isso tornou o NLP um componente essencial na evolução de processos empresariais críticos para a missão.
Soluções relacionadas

Soluções relacionadas

Natural Language Understanding

O serviço de processamento de linguagem natural (NLP) para análises avançadas de texto.

Explore o IBM Watson Natural Language Understanding.
Cloud Object Storage

Habilitar cargas de trabalho de IA e consolidar armazenamento primário e secundário de big data com armazenamento de objetos no local, líder no setor.

Explore o IBM Cloud Object Storage
Inspeção visual

Veja, preveja e previna problemas com monitoramento remoto avançado alimentado por IA e visão computadorizada para ativos e operações.

Conheça o IBM Maximo Application Suite Visual Inspection
Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data Agende uma demonstração em tempo real