Quando você ouve a palavra "sintético", pode associá-la a algo artificial ou fabricado. Considere fibras sintéticas, como poliéster e nylon, que são produzidas artificialmente por meio de processos químicos.
Embora as fibras sintéticas sejam mais acessíveis e fáceis de produzir em grande escala, sua qualidade pode rivalizar com a das fibras naturais. Elas são frequentemente projetadas para imitar seus equivalentes naturais e desenvolvidas para usos específicos, seja o elastano elástico, o acrílico para retenção de calor ou o poliéster durável.
O mesmo se aplica a dados sintéticos. Essas informações geradas artificialmente podem complementar ou até substituir dados reais ao treinar ou testar modelos de inteligência artificial (IA). Em comparação com conjuntos de dados reais, que podem ser caros de obter, difíceis de acessar, demorados para rotular e ter uma oferta limitada, os conjuntos de dados sintéticos podem ser sintetizados por meio de simulações de computador ou modelos generativos. Isso os torna mais baratos de produzir sob demanda em volumes quase ilimitados e personalizados de acordo com as necessidades de uma organização.
Apesar de seus benefícios, os dados sintéticos também trazem desafios. O processo de geração pode ser complexo, com cientistas de dados precisando criar dados realistas, ao mesmo tempo em que mantêm a qualidade e a privacidade.
No entanto, os dados sintéticos vieram para ficar. A empresa de pesquisa Gartner prevê que, até 2026, 75% das empresas usarão IA generativa para criar dados sintéticos de clientes.1
Para ajudar as empresas a aproveitar ao máximo os dados artificiais, aqui estão oito melhores práticas para geração de dados sintéticos:
Entenda por que sua empresa precisa de dados sintéticos e os casos de uso em que eles podem ser mais úteis do que dados reais. Na área de saúde, por exemplo, os registros de pacientes ou imagens médicas podem ser gerados artificialmente, sem conter dados confidenciais ou informação de identificação pessoal (PII). Isso também permite o compartilhamento seguro de dados entre pesquisadores e equipes de ciência de dados.
Os dados sintéticos podem ser usados como dados de teste no desenvolvimento de software, substituindo dados confidenciais de produção sem comprometer suas características. Além disso, permitem que empresas evitem problemas de direitos autorais e propriedade intelectual, gerando dados em vez de utilizar web crawlers para coletar informações de sites sem o conhecimento ou consentimento dos usuários.
Além disso, os dados artificiais podem atuar como uma forma de aumento de dados. Eles podem ser usados para aumentar a diversidade de dados, especialmente para grupos sub-representados no treinamento de modelos de IA. E quando as informações são dispersas, os dados sintéticos podem preencher as lacunas.
A empresa de serviços financeiros J.P. Morgan, por exemplo, achou difícil treinar modelos impulsionados por IA para detecção de fraudes devido à falta de casos fraudulentos em comparação com casos não fraudulentos. A organização usou a geração de dados sintéticos para criar mais exemplos de transações fraudulentas (link externo a ibm.com), aprimorando, assim, o treinamento de modelos.
A qualidade de dados sintéticos é tão boa quanto os dados do mundo real que os sustentam. Ao preparar conjuntos de dados originais para geração de dados sintéticos por algoritmos de aprendizado de máquina (ML), verifique e corrija quaisquer erros, imprecisões e inconsistências. Remova todas as duplicatas e insira os valores ausentes.
Considere a possibilidade de adicionar casos extremos ou valores discrepantes aos dados originais. Esses pontos de dados podem representar eventos incomuns, cenários raros ou casos extremos que refletem a imprevisibilidade e a variabilidade do mundo real.
“Tudo se resume aos exemplos iniciais”, diz Akash Srivastava, Arquiteto-chefe do InstructLab (link externo a ibm.com), um projeto de código aberto da IBM e Red Hat que emprega uma abordagem colaborativa para adicionar novos conhecimentos e habilidades a um modelo, que é impulsionado pelo novo método de geração de dados sintéticos e protocolo de treinamento por fases da IBM. “Os exemplos pelos quais você semeia a geração precisam imitar seu caso de uso do mundo real.”
Os dados sintéticos ainda são propensos a herdar e refletir os vieses que podem estar presentes nos dados originais nos quais se baseiam. Combinar informações de várias fontes, incluindo diferentes grupos demográficos e regiões, pode ajudar a mitigar o viés nos dados gerados.
Diversas fontes de dados também podem elevar a qualidade dos conjuntos de dados sintéticos. Fontes variadas podem oferecer detalhes essenciais ou contexto vital que uma única fonte ou apenas um punhado de fontes não possui. Além disso, incorporar a geração aumentada de recuperação ao processo de geração de dados sintéticos pode fornecer acesso a dados atualizados e específicos do domínio, que podem aumentar a precisão e melhorar ainda mais a qualidade.
A seleção da técnica correta de geração de dados sintéticos depende de alguns fatores, incluindo tipo de dados e complexidade. Dados relativamente simples podem se beneficiar de métodos estatísticos. Conjuntos de dados mais complexos —dados estruturados como dados tabulares ou dados não estruturados como imagens ou vídeos, por exemplo — podem exigir modelos de deep learning. As empresas também podem optar por combinar técnicas de síntese de acordo com suas necessidades.
Aqui estão alguns mecanismos comuns de geração de dados sintéticos:
Cientistas de dados podem analisar distribuições estatísticas em dados reais e gerar amostras sintéticas que espelham essas distribuições. No entanto, isso requer conhecimento e especialização significativos, e nem todos os dados se encaixam em uma distribuição conhecida.
Redes adversárias generativas (GANs) consistem em duas redes neurais: um gerador que cria dados sintéticos e um discriminador que atua como um adversário, discriminando entre dados artificiais e reais. Ambas as redes são treinadas iterativamente, com o feedback do discriminador melhorando a saída do gerador até que o discriminador não seja mais capaz de distinguir dados artificiais de reais.
As GANs podem ser usadas para gerar imagens sintéticas para tarefas de visão computacional e classificação de imagens.
Autocodificadores variacionais (VAEs) são modelos de deep learning que geram variações dos dados nos quais são treinados. Um codificador compacta os dados de entrada em um espaço de dimensão inferior, capturando as informações significativas contidas na entrada. Em seguida, um decodificador reconstrói novos dados a partir dessa representação compactada. Assim como as GANs, os VAEs podem ser usados para geração de imagens.
Modelos de transformadores, como transformadores pré-treinados generativos (GPTs), se destacam na compreensão da estrutura e dos padrões na linguagem. Eles podem ser usados para gerar dados de texto sintético para aplicações de processamento de linguagem natural ou para criar dados tabulares artificiais para tarefas de classificação ou regressão.
É importante considerar o colapso do modelo, em que o desempenho de um modelo diminui à medida que ele é repetidamente treinado com dados gerados por IA. É por isso que é essencial fundamentar o processo de geração de dados sintéticos em dados reais.
No InstructLab, por exemplo, a geração de dados sintéticos é orientada por uma taxonomia, que define o domínio ou os tópicos de onde os dados originais vêm. Isso impede que o modelo decida com quais dados ele deve ser treinado.
“Você não está pedindo ao modelo para simplesmente continuar em um loop e entrar em colapso. Contornamos completamente esse colapso ao desacoplar o modelo do processo de amostragem”, diz Srivastava.
Dados de alta qualidade são vitais para modelar o desempenho. Verifique a qualidade de dados sintéticos usando métricas baseadas em fidelidade e utilidade. A fidelidade se refere a o quanto os conjuntos de dados sintéticos se assemelham a conjuntos de dados do mundo real. A utilidade avalia o quanto os dados sintéticos podem ser usados para treinar modelos de deep learning ou ML.
A avaliação da fidelidade dos dados sintéticos envolve sua comparação com os dados originais, geralmente por meio de métodos estatísticos e visualizações, como histogramas. Isso ajuda a determinar se os conjuntos de dados gerados preservam as propriedades estatísticas dos conjuntos de dados reais, incluindo distribuição, média, mediana, amplitude e variância, entre outros.
Avaliar a similaridade correlacional por meio de coeficientes de correlação e contingência, por exemplo, também é essencial para ajudar a garantir que as dependências e os relacionamentos entre os pontos de dados sejam mantidos e representem com precisão os padrões do mundo real. Redes neurais, modelos generativos e modelos de linguagem geralmente são hábeis em capturar relacionamentos em dados tabulares e dados de séries temporais.
A medição da utilidade implica o uso de dados sintéticos como dados de treinamento para modelos de aprendizado de máquina e, em seguida, a comparação do desempenho do modelo com o treinamento com dados reais. Aqui estão algumas métricas comuns para benchmarking:
A exatidão ou precisão calcula o percentual de previsões corretas.
O recall quantifica as previsões corretas reais.
A pontuação F1 combina precisão e recall em uma única métrica.
Tanto a pontuação de início quanto a distância de início de Fréchet (FID) avaliam a qualidade das imagens geradas.
As ferramentas ou fornecedores de geração de dados sintéticos podem já possuir essas métricas disponíveis, mas também é possível utilizar outros pacotes de análise, como o SDMetrics (link externo a ibm.com), uma biblioteca Python de código aberto para avaliação de dados sintéticos tabulares.
A validação de dados artificiais ainda exige intervenção humana, e isso pode ser tão simples quanto selecionar de cinco a 10 amostras aleatórias do conjunto de dados sintéticos e analisá-las diretamente. “É essencial ter um ser humano no processo de verificação”, afirma Srivastava. “Esses são sistemas muito complexos e, assim como qualquer sistema desse tipo, há muitos pontos delicados onde algo pode dar errado. Confie em métricas, confie em benchmarks, teste rigorosamente seu pipeline, mas sempre selecione algumas amostras aleatórias e verifique manualmente se elas fornecem o tipo de dado desejado.”
Uma das vantagens de usar dados sintéticos é que eles não contêm dados confidenciais ou PII. No entanto, as empresas ainda devem verificar se os novos dados gerados estão em conformidade com os regulamentos de privacidade. Como o Regulamento Geral de Proteção de Dados (GDPR) da União Europeia ou a Lei de portabilidade e responsabilidade de planos de saúde (HIPAA) dos EUA.
Trate os dados sintéticos como dados proprietários, aplicando medidas de segurança incorporadas e controles de acesso para evitar violações e vazamentos de dados. Também devem ser aplicadas proteções durante o processo de geração para mitigar o risco de que os dados sintéticos sejam revertidos e rastreados até sua versão real, expondo informações confidenciais durante a análise de dados. Essas proteções incluem técnicas como mascaramento para ocultar ou disfarçar dados sensíveis, anonimização para remover ou apagar informações de identificação pessoal (PII) e privacidade diferencial para adicionar “ruído” ou introduzir aleatoriedade ao conjunto de dados.
“No mínimo, é necessário mascarar ou remover informações de identificação pessoal (PII), mas também é possível ir além e utilizar métodos de privacidade diferencial”, diz Srivastava. “Isso se torna ainda mais crítico quando não se utilizam modelos locais. Se você estiver enviando [dados] para um provedor terceirizado, é fundamental tomar cuidados extras com esses aspectos.”
Observe que os dados sintéticos geralmente não podem ser otimizados simultaneamente para fidelidade, utilidade e privacidade— muitas vezes, há uma compensação. O mascaramento ou a anonimização podem reduzir nominalmente a utilidade, enquanto a privacidade diferencial pode diminuir ligeiramente a precisão. No entanto, não implementar nenhuma medida de privacidade pode expor as IIP. As organizações devem equilibrar e priorizar o que é crucial para seus casos de uso específicos.
Mantenha um registro de seu fluxo de trabalho de geração de dados sintéticos, incluindo estratégias de limpeza e preparação de conjuntos de dados originais, mecanismos para geração de dados e preservação da privacidade, além dos resultados da verificação. Inclua a justificativa por trás de suas escolhas e decisões no que diz respeito à responsabilidade e transparência.
A documentação é especialmente valiosa ao conduzir avaliações periódicas do processo de geração de dados sintéticos. Esses registros servem como trilhas de auditoria que ajudam a avaliar a eficácia e a reprodutibilidade do fluxo de trabalho.
Monitore rotineiramente como os dados sintéticos são usados e o seu desempenho para identificar quaisquer comportamentos inesperados que possam surgir ou oportunidades de melhoria. Ajuste e refine o processo de geração conforme a necessidade.
Assim como as fibras são a base dos tecidos, os dados são a base dos modelos de IA. Embora a geração de dados sintéticos ainda esteja em seus estágios iniciais, avanços nesse processo podem melhorar a qualidade, confiabilidade e utilidade dos dados sintéticos a ponto de igualá-los aos dados reais, assim como as fibras sintéticas quase equivalem às fibras naturais.
1 3 Bold and Actionable Predictions for the Future of GenAI (link externo a ibm.com), Gartner, 12 de abril de 2024
Tenha acesso a insights exclusivos sobre o cenário em evolução das soluções avançadas de BI, destacando as principais descobertas, suposições e recomendações para líderes de dados e de análises.
Simplifique o acesso aos dados e automatize a governança dos dados. Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escala de IA, com todos os seus dados, em qualquer lugar.
Explore o guia do líder de dados para criar uma organização baseada em dados e gerar vantagem comercial.
Saiba como uma abordagem de data lakehouse aberta pode oferecer dados confiáveis e execução mais rápida para as análises de dados e projetos de IA.
Conecte sua estratégia e análises de dados aos objetivos de negócios com essas quatro etapas principais.
Analise com mais detalhes por que os desafios de business intelligence podem persistir e o que isso significa para os usuários da organização.
Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.
Apresentamos o Cognos Analytics 12.0, insights impulsionados por IA para maior eficiácia na tomada de decisão.