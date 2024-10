Esses novos dados podem ser usados como substitutos em conjuntos de dados de teste e estão sendo cada vez mais usados no treinamento de modelos de aprendizado de máquina, devido ao benefício que oferecem à privacidade dos dados. Um exemplo é o uso de dados sintéticos na área da saúde para proteger os dados de pacientes e melhorar os ensaios clínicos. O interesse do setor de saúde provém das regulamentações de conformidade em torno dos dados de pacientes. A HIPPA, ou Lei de portabilidade e responsabilidade de planos de saúde, é uma lei federal que protege as informações dos indivíduos contra discriminação, e os dados sintéticos ajudam a contornar isso ao criar dados gerados por IA.

Embora os dados sejam artificiais, os dados sintéticos refletem eventos do mundo real com base matemática e estatística. A técnica está ganhando popularidade no desenvolvimento de deep learning e muitos outros casos de uso.

A Gartner, uma empresa de pesquisa de mercado, prevê (link fora de ibm.com), que até 2024, 60% dos dados usados no treinamento de modelos de IA serão gerados sinteticamente.