O que são dados de treinamento?

O que são dados de treinamento?

Dados de treinamento são informações usadas para ensinar um modelo de aprendizado de máquina a fazer previsões, reconhecer padrões ou gerar conteúdo. Depois que um algoritmo processa uma grande quantidade de dados, eles são considerados "treinados" e utilizáveis para muitas aplicações. Mas, sem dados de treinamento, nem mesmo algoritmos sofisticados são úteis, como um aluno brilhante que não estudou o material para um teste.

Todo o aprendizado de máquina começa com um conjunto de dados ou uma coleção de dados. Um conjunto de dados pode ser composto de planilhas, filmagens de vídeo, páginas da web, PDFs ou qualquer outro tipo de dados. De modo geral, quanto mais dados de treinamento são alimentados em um modelo, melhor é o desempenho do modelo. Mas não é apenas a quantidade de dados — a qualidade dos dados também é muito importante.

Os dados de treinamento de IA consistem em funcionalidades, também chamadas de atributos, que descrevem dados. Por exemplo, um conjunto de dados sobre um equipamento de fábrica pode incluir temperatura, velocidade de oscilação e hora do último reparo. Esses dados são "alimentados" em um algoritmo de aprendizado de máquina, um conjunto de instruções expressas por meio de um trecho de código que processa uma entrada de dados para criar uma saída. Alimentar dados no algoritmo significa fornecer a ele dados de entrada, que são então processados e analisados para gerar a saída. Um modelo matemático treinado é o resultado desse processo. Esses modelos são a base para quase todas as inovações recentes em inteligência artificial.

Alguns modelos são usados para processamento de linguagem natural (NLP), que pode ser usado para ensinar máquinas a ler e falar em linguagem humana. A computer vision permite que outros modelos interpretem informações visuais. Mas tudo começa com os dados de treinamento.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Tipos de treinamento

Diferentes tipos de algoritmos de aprendizado usam diferentes abordagens para treinar dados. O aprendizado supervisionado utiliza dados rotulados, enquanto o aprendizado não supervisionado usa dados não rotulados. O aprendizado semissupervisionado combina ambos.

Modelos de treinamento para o aprendizado supervisionado

O aprendizado supervisionado é uma técnica de aprendizado de máquina que usa conjuntos de dados rotulados para treinar modelos de IA para identificar os padrões subjacentes nos pontos de dados. Os dados rotulados incluem funcionalidades e rótulos, saídas correspondentes que o modelo usa para entender a relação entre os dois.

Muitas empresas contratam grandes equipes de anotadores de dados humanos, que às vezes são assistidos por máquinas. Esses anotadores geralmente exigem conhecimento do domínio para garantir que os dados sejam rotulados adequadamente. Por exemplo, ao rotular dados legais, os anotadores podem precisar de uma formação em direito. O processo de usar anotadores humanos para ajudar a garantir a rotulagem adequada às vezes é chamado de "human-in-the-loop".

Um exemplo clássico de aprendizado supervisionado é a detecção de spam. Para ensinar um modelo a identificar spam, pode-se expô-lo a um conjunto de dados composto por milhares de e-mails, cada um rotulado por humanos como "spam" ou "não spam". O modelo avaliaria os padrões nos e-mails, percebendo vários padrões. Por exemplo, os e-mails que têm a palavra “grátis” no assunto têm maior probabilidade de serem spam. O modelo calcularia a probabilidade estatística de que a palavra "grátis" na linha de assunto corresponda ao rótulo "spam". Então, quando receber um novo e-mail sem rótulo, o modelo poderá aplicar esse cálculo, juntamente com muitos outros, para determinar se o novo e-mail é spam ou não.

Esse tipo de aprendizado de máquina é chamado de "supervisionado" porque envolve a supervisão humana para rotular todos esses dados.

Modelos de treinamento para aprendizado não supervisionado

Os modelos de aprendizado não supervisionado trabalham por conta própria para descobrir a estrutura inerente dos dados não rotulados. Enquanto o aprendizado supervisionado é útil para mapear entradas para saídas, o aprendizado não supervisionado é mais adequado para encontrar padrões, estruturas e relacionamentos dentro dos próprios dados, sem qualquer orientação sobre o que procurar.

Por exemplo, imagine que um anunciante queira agrupar clientes em segmentos distintos com base no comportamento de compra sem conhecer as categories com antecedência. Um conjunto de dados não rotulado pode incluir funcionalidades como frequência de compra, valor médio do pedido, tipos de produtos comprados e tempo desde a última compra, mas não possui colunas para "tipo de cliente". É isso que o modelo está tentando descobrir. Um algoritmo de agrupamento pode ser usado para identificar três clusters:

  1. Compradores frequentes e com gastos altos
     

  2. Compradores de descontos ocasionais
     

  3. Clientes novos ou pontuais

O modelo aprendeu os padrões por conta própria e fez esses agrupamentos diretamente a partir do conjunto de dados de treinamento.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Preparação de dados de treinamento

Os dados estão ao nosso redor. A população global gera imensas quantidades de dados a cada segundo do dia. Mas os dados brutos normalmente não são úteis para o treinamento de modelo. A garantia da qualidade é crítica. Primeiro, os dados devem ser pré-processados por meio de um pipeline de dados em várias etapas. Isso pode ser um processo complicado para cientistas de dados, compreendendo uma grande parte do escopo de um projeto de aprendizado de máquina, exigindo ferramentas e infraestrutura sofisticadas de ciência de dados. Dados de baixa qualidade podem introduzir ruído e viés, o que impede que os modelos de aprendizado de máquina façam previsões precisas, mas dados de treinamento de alta qualidade permitem que os modelos produzam resultados mais confiáveis em inúmeros casos de uso, desde automação até tradução e tomada de decisão baseada em dados

Coleta de dados

Os primeiros dados devem ser coletados. Em sistemas de IA, como veículos autônomos ou casas inteligentes, a coleta de dados pode ocorrer por meio de sensores ou dispositivos de IoT. Governo, instituições de pesquisa e empresas geralmente fornecem conjunto de dados públicos. Os anunciantes usam fluxos de cliques, envios de formulários e dados comportamentais dos usuários.

Limpeza e transformação de dados

Os dados brutos geralmente contêm missing values, duplicatas e outros erros. Depois que os dados são coletados, eles devem ser limpos para corrigir esses erros. Isso pode ser tão simples quanto padronizar formatos, como garantir que as datas apareçam como MM/DD/AAAA. Após a limpeza, os dados muitas vezes precisam ser transformados em um formato que seja mais fácil para os algoritmos processarem. A engenharia de funcionalidades pré-processa dados brutos em um formato legível por máquina. Ela otimiza o desempenho do modelo de ML ao transformar e selecionar funcionalidades relevantes.

Divisão do conjunto de dados

Para avaliar o quão bem um modelo generaliza para novos dados, o conjunto de dados é normalmente dividido em três conjuntos. O primeiro é um conjunto de treinamento usado para ajustar os parâmetros de um modelo para encontrar a melhor correspondência entre suas previsões e os dados, um processo de treinamento chamado "fitting". O segundo é um conjunto de dados de validação usado para fazer o ajuste fino dos hiperparâmetros e evitar o overfitting. Por fim, um conjunto de dados de teste é usado para a avaliação final do desempenho do modelo.

Rotulagem de dados

Às vezes chamada de “anotação humana”, a rotulagem de dados é o processo de adicionar rótulos significativos aos dados brutos para que um modelo possa aprender com eles. Os rótulos podem descrever qualquer propriedade dos dados. Por exemplo, um post em uma rede social dizendo “Este produto é ruim” poderia ser rotulado como um “sentimento negativo” em um processo conhecido como análise de sentimento. Um anotador humano poderia rotular uma foto de um cachorro como “cachorro”. Uma transação bancária pode ser rotulada como "fraudulenta".

Outras etapas podem incluir estruturação de dados, aumento e controle de versão. Alguns fluxos de trabalho incluem um ciclo de feedback em que a análise revela onde mais ou melhores dados são necessários, ou onde dados inúteis podem ser filtrados.

Tendências nos dados de treinamento

Como os dados são tão importantes quanto a arquitetura do modelo, há muita atenção à otimização do processo de treinamento de dados. Os dados sintéticos são uma área de inovação. Em vez de extrair enormes conjuntos de dados do mundo real, as organizações agora estão gerando dados sintéticos usando a própria IA.

Outra tendência são conjuntos de dados menores e de maior qualidade. Modelos grandes não precisam só de mais dados, precisam de dados melhores. Cientistas de dados estão construindo conjuntos de dados menores ou conjuntos de dados específicos para tarefas que são úteis para casos de uso restritos. Por exemplo, um LLM usado no campo de serviços jurídicos poderia ser treinado exclusivamente em corpora jurídico para obter melhores resultados.

O trabalho de pré-processamento de dados descrito neste artigo pode ser feito automaticamente com IA. Algoritmos mais recentes ajudam a manter os conjuntos de dados limpos, removendo texto de baixa qualidade, conteúdo duplicado e material clichê irrelevante, economizando tempo e computação.

Essas são apenas algumas tendências em um campo em rápido desenvolvimento.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real