Atualmente, as organizações geram montanhas de dados em constante crescimento, com mais de 400 milhões de terabytes por dia. Grande parte desses dados pode ter um valor imenso, mas somente se as empresas conseguirem compreendê-los e aproveitá-los com sucesso.
Como parte do gerenciamento de dados eficaz, a curadoria de dados ajuda as empresas a extrair insights importantes dos dados corporativos e a usá-los na tomada de decisões. Dados bem organizados também são considerados fundamentais para melhorar o desempenho de iniciativas de inteligência artificial (IA) e para ajudar a garantir a conformidade regulatória com os requisitos de gerenciamento de dados e privacidade de dados.
Fora do ambiente corporativo, a curadoria de dados é um processo essencial em contextos de pesquisa e acadêmicos. Por exemplo, a curadoria de dados de pesquisa pode melhorar o compartilhamento e o arquivamento de dados entre desenvolvedores, cientistas, profissionais de saúde e outros pesquisadores.
O processo de curadoria de dados pode ser manual ou realizado com o auxílio de automação, utilizando softwares projetados para executar atividades de curadoria em escala.
Em sua essência, a curadoria de dados permite que as empresas usem seus dados para gerar valor. Mas também ajuda a lidar com o crescimento exponencial dos dados, apoiar iniciativas de IA eficazes e responsáveis, manter a conformidade regulatória e garantir a usabilidade dos dados.
O crescimento exponencial dos volumes de dados fez com que as organizações tivessem mais dados relevantes para os negócios do que nunca, sendo que algumas acumulam conjuntos com terabytes ou petabytes de informações provenientes de diversas fontes. Em escala global, estima-se que 149 zettabytes de dados tenham sido gerados em 2024, e esse número deve mais que dobrar até 2028.
Realizar controle de qualidade e descoberta de dados nesses conjuntos extremamente grandes e complexos, conhecidos como “big data”, não é uma tarefa simples. No entanto, é essencial, já que os dados corporativos estão se mostrando, cada vez mais, uma fonte valiosa de insights. Anotar e organizar dados para a tomada de decisões baseada em dados pode oferecer uma vantagem competitiva e elevar o desempenho de empresas em diversos setores.
Lidar com os desafios de qualidade e usabilidade dos dados tornou-se especialmente urgente à medida que as organizações adotam recursos orientados por IA como uma prioridade estratégica. Os sistemas de IA têm o potencial de transformar os negócios e elevar a produtividade, mas suas necessidades de dados são significativas: eles exigem dados de alta qualidade para funcionar com eficácia.
Dados de baixa qualidade podem resultar em desempenho ruim do modelo, um cenário de "entra lixo, sai lixo". Conjuntos de dados com problemas de qualidade, como valores ausentes, valores discrepantes ou inconsistências, podem distorcer a análise e gerar resultados incorretos.
A curadoria de dados também ajuda a garantir a conformidade regulatória, especialmente no contexto da IA. Muitos setores, especialmente aqueles que lidam com informações sensíveis, como saúde ou serviços financeiros, precisam navegar por um cenário regulatório em constante evolução, que dita como os dados devem ser coletados, processados, armazenados e protegidos.
Práticas eficazes de curadoria de dados ajudam a garantir que os dados sejam coletados, armazenados, processados e rotulados de acordo com essas normas. A Lei de IA da União Europeia, por exemplo, exige que sistemas de IA de alto risco adotem práticas rigorosas de controle de dados para garantir que os dados de treinamento, validação e teste atendam a critérios de qualidade específicos. Um exemplo disso é a necessidade de controle eficaz no processo de coleta de dados.
A curadoria de dados também é essencial para ajudar a garantir a reutilização de conjuntos de dados de alta qualidade. Por meio da curadoria, por exemplo, as organizações podem criar e manter um glossário centralizado adaptado especificamente ao negócio. Essa fonte única da verdade permite que usuários em toda a organização compreendam melhor os dados e saibam como utilizá-los. Quando os dados estão acessíveis e são universalmente utilizáveis, é mais provável que os usuários recorram a eles repetidamente para obter insights.
Embora as práticas de curadoria de dados possam variar entre organizações, pesquisadores identificaram atividades comuns realizadas por curadores de dados, engenheiros de dados, cientistas de dados, administradores de dados e outros profissionais de gerenciamento de dados ao longo do ciclo de vida do big data.1 Essas atividades incluem:
Definir estratégias e critérios para a coleta, produção e ingestão de dados. A ingestão de dados inclui a aquisição de dados de várias fontes, incluindo bancos de dados estruturados e interfaces de programação de aplicativos (APIs), além de bancos de dados para dados não estruturados. A etapa de planejamento da curadoria de dados também pode considerar controle de dados, que ajuda a garantir a integridade dos dados e a segurança dos dados.
Criar, coletar, preservar e manter metadados, que são informações que descrevem um ponto ou conjunto de dados, como autor, data de criação ou tamanho do arquivo. O gerenciamento bem-sucedido de metadados pode ajudar a tornar os dados mais localizáveis, permitir o rastreamento de linhagem de dados e melhorar a interoperabilidade do sistema.
Aplicar métodos de preparação de dados. Por exemplo, a limpeza de dados é o processo de identificar e corrigir erros e inconsistências em conjuntos de dados brutos. A transformação de dados é a conversão de dados brutos e limpos em um formato utilizável para análise. Já a anonimização de dados sensíveis ajuda a garantir a privacidade dos dados e a conformidade regulatória.
Avaliar e validar a qualidade dos dados, rastrear a proveniência dos dados e ajudar a garantir a proteção de dados sensíveis. A qualidade dos dados pode ser categorizada por métricas como precisão, completude e consistência. Já o rastreamento da proveniência dos dados pode ajudar a confirmar a confiabilidade dos dados e assegurar que as permissões de uso necessárias pelos fornecedores de dados foram obtidas.
Transferir dados das unidades de processamento para repositórios e sistemas de armazenamento de dados, como data lakes e data warehouses. As considerações sobre preservação de dados podem incluir o armazenamento de diferentes tipos de dados e a garantia da segurança das informações.
Tornar os dados pesquisáveis e acessíveis por meio do desenvolvimento de taxonomias, padronização de metadados e estabelecimento de métodos de recuperação de dados.
Processos manuais podem tornar a curadoria de dados lenta, trabalhosa e ineficiente. No entanto, as soluções adequadas de controle e gerenciamento de dados podem ajudar as empresas a automatizar fluxos de trabalho de curadoria de dados e a otimizar pipelines de dados.
Soluções líderes podem incluir recursos como:
Um catálogo de dados é um inventário detalhado de todos os ativos de dados de uma organização, criado para ajudar profissionais de dados a localizar rapidamente as informações de que precisam. Catálogos de dados controlados utilizam funções de classificação e mascaramento de dados para permitir o tratamento seguro das informações.
Glossários com vocabulários de negócios específicos do setor podem melhorar a classificação de dados, a conformidade regulatória e outras atividades de controle.
Modelos de linguagem de grande porte (LLMs) podem ser implementados para o enriquecimento de metadados, adicionando mais contexto, rótulos ou descrições a grandes volumes de ativos de dados de uma só vez.
Busca inteligente pode melhorar o acesso aos dados e eliminar silos. Impulsionada por IA, ela permite que os usuários extraiam informações de qualquer lugar (dentro ou fora da empresa), independentemente do formato, ajudando-os a encontrar rapidamente os dados de que precisam.
A curadoria de dados desempenha um papel importante em diversos campos e disciplinas. Casos de uso incluem:
Dados selecionados podem impulsionar avanços e descobertas no tratamento de doenças. Por exemplo, uma clínica de saúde com sede nos EUA anunciou recentemente uma parceria com uma plataforma de dados de saúde com IA para selecionar conjuntos de dados focados em esclerose múltipla (EM), uma doença neurológica crônica.
O objetivo do projeto, que incluirá dados coletados de mais de 3.000 pacientes, é desenvolver insights baseados em dados sobre subtipos da doença, progressão e outros aspectos.2
A curadoria de dados pode ajudar a garantir que as organizações que adotam IA o façam em conformidade com as regulamentações e exigências aplicáveis.
Por exemplo, o setor de seguros tem adotado amplamente tecnologias de IA e aprendizado de máquina para modernização. No entanto, o cenário regulatório que envolve a adoção de IA nesse setor é complexo e dinâmico. Leis relevantes, como a Diretiva Solvência II, incluem políticas rigorosas para seguradoras no que se refere à “suficiência e qualidade dos dados relevantes para os processos de subscrição e provisões técnicas”. Essas regulamentações também exigem que os dados utilizados para testar e treinar sistemas de IA sejam completos, precisos e apropriados.3
Varejistas digitais e físicos frequentemente selecionam os dados de seus clientes por meio de processos de segmentação, organizando os consumidores em grupos com base em suas características, comportamentos e preferências. Isso permite que os varejistas sejam mais eficazes ao direcionar promoções, recomendações de produtos e outras ações de marketing personalizadas a diferentes públicos.
Por exemplo, uma análise de campanhas de marketing por e-mail no varejo constatou que e-mails segmentados foram lidos 15% mais vezes do que os não segmentados.4
Aproveite seus dados para IA e análise de dados com catalogação inteligente e gestão de políticas. O IBM Knowledge Catalog é uma solução de governança de dados que disponibiliza um catálogo para automatizar a descoberta, o controle de qualidade e a proteção de dados.
Transforme dados brutos em insights praticáveis com rapidez, unifique a governança, a qualidade, a linhagem e o compartilhamento de dados, e disponibilize informações confiáveis e contextualizadas aos consumidores de dados.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights que proporciona vantagem comercial.
1 “Big data curation framework: Curation actions and challenges.” Journal of Information Science. 11 de novembro de 2022.
2 “Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data.” MobiHealthNews. 14 de janeiro de 2025.
3 “Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management.” Autoridade Europeia de Seguros e Pensões Ocupacionais (EIOPA). 10 de fevereiro de 2025.
4 “Sophisticated email segmentation boosts open rates, engagement: report.” Retail Dive. Acessado em 28 de março de 2025.