O que é verdade fundamental?

20 de dezembro de 2024

Autores

Alexandra Jonker

Editorial Content Lead

O que é verdade fundamental?

A "ground truth" ou dados de referência se referem a dados verificados e verdadeiros dados usados para treinar, validar e testar modelos de inteligência artificial (IA).
 

No campo de ciência de dados, os dados de referência representam o padrão de excelência dos dados precisos. Isso permite que os cientistas de dados avaliem o desempenho do modelo comparando os resultados com a “resposta correta” (dados baseados em observações do mundo real). Isso valida que os modelos de aprendizado de máquina (ML) produzem resultados precisos que refletem a realidade.

Dados de referência são especialmente importantes para o aprendizado supervisionado, uma subcategoria de ML que usa conjuntos de dados rotulados para treinar algoritmos a classificar dados (classificadores) ou prever resultados com precisão.

Rotulagem de dados ou anotação de dados é fundamental para a coleta de dados de referência. Sem rótulos ou anotações precisas, os dados não podem ser considerados um benchmark para a verdade no mundo real.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Por que os dados reais são importantes?

Os dados de verdade fundamental são a base do aprendizado supervisionado de máquina, que depende de conjuntos de dados de alta qualidade e rotulados. Modelos de aprendizado supervisionado de máquina (ML) são usados para construir e avançar muitas das aplicações de IA atuais. Por exemplo, os modelos de ML supervisionados são responsáveis pelo reconhecimento de imagens e objetos, análises preditivas de dados, análise de sentimentos de clientes e detecção de spam.

Os dados de verdade de base fornecem as informações rotuladas e verificadas de forma precisa necessárias para treinar modelos supervisionados de ML, validar seu desempenho e testar sua capacidade de generalização (ou fazer previsões precisas com base em novos dados). Ao atuar como a "resposta correta" em comparação com as previsões do modelo, a verdade de base assegura que os sistemas de IA aprendam os padrões adequados e funcionem de forma confiável em cenários reais.

Por exemplo, imagine a imagem de um gato. O conjunto de dados de treinamento para esta imagem pode incluir rótulos para o corpo, as orelhas, os olhos e os bigodes do gato, classificações até o nível de pixel. Essas anotações ensinam algoritmos de aprendizado de máquina a identificar funcionalidades semelhantes dentro de novos dados de imagem.

A precisão desses rótulos no conjunto de treinamento é crítica. Se as anotações forem incorretas ou inconsistentes (como rotular patas de cachorro em vez de patas de gato), o modelo não aprende os padrões corretos. Isso pode levar a previsões falsas.

Um gato com patas de cachorro pode parecer inócuo. No entanto, as consequências de previsões falsas são mais graves em áreas como saúde e mitigação das mudanças climáticas, onde a precisão em tempo real é fundamental.  

Mixture of Experts | 25 de abril, episódio 52

Decodificando a IA: resumo semanal das notícias

Junte-se ao nosso painel de engenheiros, pesquisadores, líderes de produto e outros especialistas de classe mundial enquanto eles cortam o ruído da IA para trazer a você as últimas notícias e insights sobre IA.

Informações básicas durante todo o ciclo de vida do ML

A ground truth é essencial para o ciclo de vida do aprendizado supervisionado de máquina (ML), incluindo as fases de treinamento, validação e teste do modelo.

  • Treinamento: Durante a fase de treinamento, os dados de ground truth fornecem as respostas corretas para o modelo aprender. A precisão da rotulagem de dados é crucial: se os dados de ground truth estiverem errados ou inconsistentes, o modelo aprende padrões incorretos e tem dificuldade em fazer previsões precisas.

  • Validação: quando o modelo é treinado, ele é avaliado com base em como aprendeu com os dados de ground truth. Isso é feito através da validação, onde as previsões do modelo são comparadas com uma amostra diferente dos dados de ground truth. O modelo pode ser ajustado e afinado nesta fase.
  • Teste: após o modelo ser treinado e validado, o teste com um novo conjunto de dados de ground truth ajuda a garantir que ele tenha bom desempenho em dados novos e não vistos (generalização). É aqui que a eficácia do modelo em cenários do mundo real é verdadeiramente avaliada. Métricas como precisão, exatidão e recall avaliam o desempenho do modelo e destacam áreas para melhorias.

Verdade fundamental em diferentes tarefas de ML

A ground truth serve como a base para várias tarefas de aprendizado supervisionado, incluindo classificação, regressão e segmentação. Não importa se um modelo está aprendendo a categorizar dados, prever resultados numéricos ou identificar objetos em imagens, a verdade básica fornece o benchmark para previsões precisas. Essas tarefas têm uma ampla variedade de casos de uso no mundo real, nos quais a precisão dos dados reais é crucial para o sucesso.

Classificação

Nas tarefas de classificação, os dados de ground truth fornecem os rótulos corretos para cada entrada, ajudando o modelo a categorizar dados em classes pré-definidas. Por exemplo, na classificação binária, um modelo distingue entre duas categorias (como verdadeiro ou falso). A classificação múltiplas classes é um pouco mais complexa: o modelo atribui os dados a uma das várias classes que deve escolher. 

Considere o setor de saúde. As plataformas de IA frequentemente usam classificação de múltiplas classes para analisar imagens médicas, como tomografias e ressonâncias magnéticas, para ajudar no diagnóstico.

Falando de forma geral, uma aplicação de IA pode examinar uma radiografia de um braço e categorizá-la em uma das quatro classes: quebrado, fraturado, torcido ou saudável. Se os dados de ground truth forem falhos, isso pode levar a previsões incorretas, resultando potencialmente em diagnósticos errados ou tratamentos atrasados.

Regressão

As tarefas de regressão se concentram em prever valores contínuos. Os dados de ground truth representam os resultados numéricos reais que o modelo busca prever. Por exemplo, um modelo de regressão linear pode prever os preços das casas com base em fatores como metragem quadrada, número de cômodos e localização.

Na mitigação das mudanças climáticas, modelos de IA usam imagens de satélite e dados de sensoriamento remoto para monitorar mudanças ambientais, incluindo variações de temperatura ou desmatamento.

Os dados de ground truth neste caso incluem registros verificados de dados históricos de clima ou medições conhecidas de temperatura. Esses dados de ground truth ajudam a garantir que as previsões do modelo de IA sejam precisas e possam informar decisões críticas de políticas e ações climáticas.

Segmentação

Tarefas de segmentação envolvem dividir uma imagem ou conjunto de dados em regiões ou objetos distintos. Dados de ground truth em segmentação são frequentemente definidos no nível do pixel para identificar limites ou regiões dentro de uma imagem.

Por exemplo, no desenvolvimento de veículos autônomos, os rótulos de ground truth são usados para treinar modelos a detectar e diferenciar pedestres, veículos e sinais de trânsito em ambientes reais e agir de acordo. Se os rótulos de ground truth forem incorretos ou inconsistentes, o modelo pode identificar incorretamente objetos, representando sérios riscos de segurança nas estradas.

Desafios comuns no estabelecimento da verdade terrestre

Existem vários desafios para estabelecer dados reais de alta qualidade, incluindo:

  • Rotulagem de dados inconsistent: cientistas de dados frequentemente encontram variações em conjuntos de dados, o que pode levar a inconsistências que afetam o comportamento do modelo. Até mesmo pequenos erros de rotulagem em atribuições e citações podem se acumular, resultando em erros nas previsões do modelo.

  • Subjetividade e ambiguidade: muitas tarefas de rotulagem de dados exigem julgamento humano, o que pode ser subjetivo. Por exemplo, em tarefas como a análise de sentimento, diferentes anotadores podem interpretar os dados de forma diferente, levando a inconsistências na verdade absoluta.

  • Complexidade dos dados: conjuntos de dados grandes e diversos, comuns em áreas como processamento de linguagem natural (PLN) ou inteligência artificial generativa (IA gen), podem ser mais difíceis de rotular com precisão. A complexidade dos dados, com múltiplos rótulos possíveis e nuances contextuais, pode dificultar o estabelecimento de uma ground truth consistente.

  • Dados com viés: os dados de ground truth podem nem sempre ser totalmente representativos de cenários do mundo real, especialmente se o conjunto de dados rotulados for incompleto ou desequilibrado. Isso pode resultar em modelos tendenciosos .

  • Escalabilidade e custo: rotular grandes conjuntos de dados, especialmente aqueles que exigem conhecimento especializado e observação direta (como imagens médicas), é um processo demorado e caro. Escalonar os esforços de rotulagem de dados para atender às demandas dos sistemas modernos de IA frequentemente requer automação ou crowdsourcing, mas essas abordagens ainda podem introduzir erros ou inconsistências.

Estratégias para estabelecer dados reais de alta qualidade

Existem várias estratégias e metodologias que as organizações podem usar para estabelecer e otimizar dados de ground truth de alta qualidade, incluindo:

  • Definição do objetivo e dos requisitos de dados: definir claramente os objetivos do modelo ajuda as empresas a determinar os tipos de dados e rótulos necessários para que o processo de coleta de dados esteja alinhado com o uso pretendido do modelo. Esse alinhamento é especialmente importante em áreas como Computer Vision, em que ML e Neural Networks ensinam os sistemas a derivar informações significativas a partir de entradas visuais.

  • Desenvolvendo uma estratégia de rotulagem abrangente: as organizações podem criar diretrizes padronizadas para rotular dados de ground truth, ajudando a garantir consistência e precisão em todo o conjunto de dados. Um esquema de rotulagem bem definido pode orientar como anotar vários formatos de dados e manter as anotações uniformes durante o desenvolvimento do modelo.

  • Usando colaboração entre humanos e máquinas: ferramentas de aprendizado de máquina, incluindo Amazon SageMaker Ground Truth ou IBM® Watson Natural Language Understanding podem ampliar a experiência dos anotadores humanos. Por exemplo, o Amazon SageMaker Ground Truth oferece um serviço de rotulagem de dados que facilita a criação de conjuntos de dados de treinamento de alta qualidade por meio de rotulagem automatizada e processos de revisão humana.

  • Verificação da consistência dos dados: as equipes podem monitorar dados rotulados para consistência implementando processos de garantia de qualidade, como acordos entre anotadores (IAA). Um IAA é uma métrica estatística que mede o nível de consistência entre diferentes anotadores ao rotularem os mesmos dados.

  • Lidando com vieses:  os cientistas de dados devem estar cientes e tentar evitar potenciais vieses em seus conjuntos de dados de ground truth. Eles podem empregar várias técnicas, incluindo garantir práticas de coleta de dados diversas, usando vários anotadores diversificados para cada ponto de dado, cruzando dados com fontes externas ou utilizando estratégias de aumento de dados para grupos sub-representados.

  • Atualização de dados reais: os dados reais são um ativo dinâmico. As organizações podem confirmar as previsões do modelo contra novos dados e atualizar o conjunto de dados rotulados à medida que as condições do mundo real evoluem. Imagens de satélite, dados de sensoriamento remoto e modelos de mudanças climáticas são exemplos de conjuntos de dados que exigem calibração contínua para manter a precisão ao longo do tempo.
Soluções relacionadas
IBM watsonx.governance

Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM watsonx.governance.

Explore o watsonx.governance
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Direcione, gerencie e monitore sua IA com um único portfólio para acelerar a IA responsável, transparente e explicável.

Explore o watsonx.governance Agende uma demonstração em tempo real