O que são dados sintéticos?

Autora

Rina Diane Caballar

Staff Writer

IBM Think

O que são dados sintéticos?

Dados sintéticos são dados artificiais criados para imitar dados do mundo real. Eles são gerados por meio de métodos estatísticos ou usando técnicas de inteligência artificial (IA), como deep learningIA generativa.

Apesar de serem gerados artificialmente, os dados sintéticos retêm as propriedades estatísticas subjacentes dos dados originais nos quais se baseiam. Dessa forma, conjuntos de dados sintéticos podem complementar ou até mesmo substituir conjuntos de dados reais.

Os dados sintéticos podem atuar como um espaço reservado para dados de teste e são usados principalmente para treinar modelos de aprendizado de máquina, servindo como uma possível solução, ainda que escassa, para a necessidade cada vez maior de dados de treinamento do mundo real de alta qualidade para  modelos de IA. No entanto, os dados sintéticos também estão ganhando força em setores como finanças e saúde, onde os dados são limitados, de obtenção demorada ou difíceis de acessar devido a questões de privacidade de dados e requisitos de segurança. Na verdade, a empresa de pesquisa Gartner prevê que 75% das empresas empregarão IA generativa para criar dados sintéticos de clientes até 2026.1

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Tipos de dados sintéticos

Os dados sintéticos podem vir em formatos de multimídia, tabular ou de texto. Dados de texto sintético podem ser usados para processamento de linguagem natural (PLN), enquanto os dados tabulares sintéticos podem ser utilizados para criar tabelas de banco de dados relacionais. Multimídia sintética como vídeos, imagens ou outros dados não estruturados, pode ser aplicada a tarefas de visão computacional, como classificação de imagens, reconhecimento de imagens e detecção de objetos.

Os dados sintéticos também podem ser classificados de acordo com seu nível de síntese:

  • Totalmente sintético

  • Parcialmente sintético

  • Híbrido

Totalmente sintéticos

Dados totalmente sintéticos implicam na geração de dados totalmente novos que não incluem nenhuma informação do mundo real. Estima os atributos, padrões e relacionamentos que sustentam dados reais para emulá-los o mais próximo possível.

As organizações financeiras, por exemplo, podem não ter amostras de transações suspeitas para treinar efetivamente os modelos de IA na detecção de fraude. Eles podem, então, gerar dados totalmente sintéticos que representam transações fraudulentas para melhorar o treinamento de modelos.

Parcialmente sintéticos

Os dados parcialmente sintéticos são derivados de informações do mundo real, mas substituem partes do conjunto de dados original — normalmente aquelas que contêm informações confidenciais— por valores artificiais. Essa técnica de preservação da privacidade ajuda a proteger os dados pessoais, mantendo as características dos dados reais.

Os dados parcialmente sintéticos podem ser especialmente valiosos em pesquisas clínicas, por exemplo, em que os dados reais são cruciais para os resultados, mas a proteção das informações de identificação pessoal (PII) e dos registros médicos dos pacientes é igualmente crítico.

Híbridos

Os dados sintéticos híbridos conjugam conjuntos de dados reais com conjuntos de dados totalmente sintéticos. Ele pega registros do conjunto de dados original e os emparelha aleatoriamente com registros de suas contrapartes sintéticas. Os dados sintéticos híbridos podem ser usados para analisar e obter insights de dados de clientes, por exemplo, sem rastrear nenhum dado sensível até um cliente específico.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Como são gerados os dados sintéticos?

As organizações podem optar por gerar seus próprios dados sintéticos. Podem também usar soluções como o Synthetic Data Vault, uma biblioteca Python para criar dados sintéticos, ou outros algoritmos, frameworks, pacotes e  ferramentas de código aberto. Conjuntos de dados predefinidos, como o IBM Synthetic Data Sets, são outra opção.

Veja a seguir algumas técnicas comuns de geração de dados sintéticos:

  • Métodos estatísticos

  • Redes adversárias generativas (GANs)

  • Modelos transformadores

  • Autocodificadores variacionais (VAEs)

  • Modelagem baseada em agentes

Métodos estatísticos

Essas metodologias são adequadas para dados cuja distribuição, correlações e características são bem conhecidas e, portanto, podem ser simuladas por meio de modelos matemáticos.

Nas abordagens baseadas em distribuição, as funções estatísticas podem ser usadas para definir a distribuição de dados. Então, por meio de amostragem aleatória dessa distribuição, novos pontos de dados podem ser gerados.

Para estratégias baseadas em correlação, pode ser aplicada interpolação ou extrapolação. Em dados de séries temporais, por exemplo, a interpolação linear pode criar novos pontos de dados entre pontos adjacentes, enquanto a extrapolação linear pode gerar pontos de dados além dos existentes.

Redes adversárias generativas (GANs)

As redes adversárias generativas (GANs) envolvem um par de neural networks: um gerador que cria dados sintéticos e um discriminador que atua como adversário e distingue dados reais de dados artificiais. Ambas as redes são treinadas iterativamente, com o feedback do discriminador aprimorando a saída do gerador até que o discriminador não consiga mais diferenciar dados artificiais de reais. As GANs são frequentemente usadas para geração de imagens.

Modelos de transformador

Modelos de transformadores, como os transformadores predefinidos generativos (GPTs) da OpenAI, servem de base para pequenos modelos de linguagem (SLMs)grandes modelos de linguagem (LLMs). Os transformadores processam dados com codificadores e decodificadores.

Os codificadores transformam sequências de entrada em representações numéricas, chamadas de embeddings, que capturam a semântica e a posição dos tokens na sequência de entrada. Um mecanismo de autoatenção possibilita que os transformadores "concentrem sua atenção" nos tokens mais importantes na sequência de entrada, independentemente de sua posição. Os decodificadores então usam esse mecanismo de autoatenção e as incorporações dos codificadores para gerar a sequência de saída mais estatisticamente provável.

Modelos de transformadores se destacam na compreensão da estrutura e dos padrões na linguagem. Dessa forma, podem ser usados para criar dados de texto artificiais ou gerar dados tabulares sintéticos.

Autocodificadores variacionais (VAEs)

Os autocodificadores variacionais (VAEs) são modelos generativos que produzem variações dos dados nos quais são treinados. Um codificador compacta os dados de entrada em um espaço de dimensão inferior, capturando as informações significativas contidas na entrada. Em seguida, um decodificador reconstrói novos dados a partir dessa representação compactada. Assim como os GANs, os VAEs podem ser usados para gerar imagens sintéticas.

Modelagem baseada em agentes

Essa estratégia de simulação envolve a modelagem de um sistema complexo como um ambiente virtual contendo entidades individuais, também conhecidas como agentes. Os agentes operam com base em um conjunto predefinido de regras, interagindo com seu ambiente e outros agentes. A modelagem baseada em agente simula essas interações e comportamentos de agente para produzir dados sintéticos.

Por exemplo, os modelos baseados em agentes em epidemiologia representam indivíduos em uma população como agentes. Modelando as interações dos agentes, é possível gerar dados sintéticos como a taxa de contato e a probabilidade de infecção. Os dados podem então ajudar a prever a propagação de doenças infecciosas e a examinar os efeitos das intervenções.

Benefícios dos dados sintéticos

Os dados sintéticos são uma tecnologia em crescimento, oferecendo estas vantagens para as empresas:

  • Personalização

  • Eficiência

  • Maior privacidade de dados

  • Dados mais ricos

Personalização

As equipes de ciência de dados podem personalizar dados sintéticos para atender às especificações e necessidades exatas de uma empresa. E como os cientistas de dados têm maior controle sobre os conjuntos de dados sintéticos, fica mais fácil gerenciá-los e analisá-los.

Eficiência

A geração de dados sintéticos elimina o processo demorado de coleta de dados reais, tornando a produção mais rápida e ajudando a acelerar os fluxos de trabalho. Os dados sintéticos também vêm pré-rotulados, removendo assim a etapa tediosa de rotular manualmente volumes de dados e anotá-los manualmente.

Maior privacidade de dados

Os dados sintéticos assemelham-se aos dados do mundo real, mas podem ser gerados de forma que nenhum dado pessoal seja rastreável até um indivíduo em particular. Isso atua como uma forma de anonimização de dados, ajudando a manter informações confidenciais seguras. Os dados sintéticos também permitem que as empresas evitem problemas de propriedade intelectual e direitos autorais, eliminando rastreadores da web que coletam informações de sites sem o conhecimento ou consentimento dos usuários.

Dados mais ricos

Conjuntos de dados artificiais podem ajudar a aumentar a diversidade de dados, criando ou complementando dados para grupos sub-representados no treinamento de IA. Os dados sintéticos também podem preencher as lacunas quando os dados originais são escassos ou não existem dados reais. E incluir casos extremos ou valores discrepantes como pontos de dados pode ampliar o escopo de conjuntos de dados sintéticos, refletindo a variabilidade e a imprevisibilidade do mundo real.

Desafios dos dados sintéticos

Apesar dos benefícios dos dados sintéticos, eles também apresentam algumas desvantagens. Seguir melhores práticas para geração de dados sintéticos pode ajudar a lidar com essas desvantagens e possibilitar que as empresas maximizem o valor dos dados artificiais.

Veja a seguir alguns desafios associados aos dados sintéticos:

  • Viés

  • Colapso do modelo

  • Equilíbrio entre precisão e privacidade

  • Verificação

Viés

Os dados sintéticos ainda podem exibir os vieses que podem estar presentes nos dados do mundo real nos quais se baseiam. O uso de diversas fontes de dados e a adição de várias fontes de dados, inclusive de regiões e grupos demográficos variados, podem ajudar a mitigar o viés.

Colapso dos modelos

O colapso do modelo ocorre quando um modelo de IA é treinado de forma repetida em dados gerados por IA, causando declínio no desempenho do modelo. Uma mistura saudável de conjuntos de dados de treinamento reais e artificiais pode ajudar a evitar esse problema.

Compensação entre precisão e privacidade

Durante o processo de geração de dados sintéticos, ocorre uma batalha entre precisão e privacidade. Priorizar a precisão pode significar reter mais dados pessoais, enquanto manter a privacidade em primeiro lugar pode resultar em uma redução na precisão. Encontrar o equilíbrio certo para os casos de uso de uma empresa é vital.

Verificação

Devem-se conduzir verificações e testes adicionais para validar a qualidade de dados depois que eles são gerados. Isso introduz uma etapa extra no fluxo de trabalho, mas é crucial para garantir que os conjuntos de dados artificiais fiquem livres de erros, inconsistências ou imprecisões.

Casos de uso de dados sintéticos

Os dados sintéticos são versáteis e podem ser gerados para uma ampla gama de aplicações. Veja a seguir alguns setores onde os dados sintéticos podem ser uma grande vantagem:

  • Automotivo

  • Financeiro

  • Setor de saúde

  • Manufatura

Automotivo

A modelagem baseada em agentes pode ser empregada para gerar dados artificiais relacionados ao fluxo de tráfego, ajudando a melhorar os sistemas rodoviários e de transporte. O uso de dados sintéticos pode ajudar os fabricantes de automóveis a evitar o processo caro e demorado de obtenção de dados reais de acidentes para testes de segurança do veículo. Os fabricantes de veículos autônomos podem usar dados sintéticos para treinar carros autônomos em cenários variados.

Finanças

Dados financeiros sintéticos podem ser implementados para avaliar e gerenciar riscos, modelagem preditiva e forecasting e testar algoritmos de negociação, entre outras aplicações. Os conjuntos de dados sintéticos da IBM, por exemplo, consistem em dados simulados para auxiliar na detecção de fraudes em cartões de crédito e pedidos de seguro residencial e em transações bancárias simuladas para soluções de combate à lavagem de dinheiro.

Saúde

Conjuntos de dados sintéticos podem ajudar as empresas farmacêuticas a acelerar o desenvolvimento de medicamentos. Enquanto isso, os pesquisadores médicos podem usar dados parcialmente sintéticos para ensaios clínicos ou dados totalmente sintéticos para criar registros artificiais de pacientes ou imagens médicas para formular tratamentos inovadores ou preventivos. A modelagem baseada em agentes também pode ser aplicada na epidemiologia para estudar a transmissão e as intervenções de doenças.

Fabricação

Empresas de manufatura podem usar dados sintéticos para melhorar os recursos de inspeção visual dos modelos de computer vision que examinam os produtos em tempo real em busca de defeitos e desvios dos padrões. Conjuntos de dados artificiais também podem aprimorar a manutenção preditiva, com dados de sensores sintéticos ajudando os modelos de aprendizado de máquina a prever melhor as falhas do equipamento e a recomendar medidas apropriadas e oportunas.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé