Resumindo, sim. Quando falamos de integridade de dados, estamos nos referindo à abrangente integridade, precisão, consistência, acessibilidade e segurança dos dados de uma organização. Juntos, esses fatores determinam a confiabilidade dos dados da organização. A qualidade de dados usa esses critérios para medir o nível de integridade dos dados e, por sua vez, sua confiabilidade e aplicabilidade para o uso pretendido. A qualidade e a integridade de dados são vitais para uma organização baseada em dados que emprega análise de dados para decisões de negócios, oferece acesso a dados com autoatendimento para stakeholders internos e proporciona ofertas de dados aos clientes.
Boletim informativo do setor
Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.
Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.
Para alcançar um alto nível de integridade de dados, uma organização implementa processos, regras e normas que regem a forma como os dados são coletados, armazenados, acessados, editados e usados. Esses processos, regras e normas funcionam em conjunto para:
Uma organização pode usar qualquer número de ferramentas e ambientes de nuvem privada ou nuvem pública durante todo o ciclo de vida dos dados para manter a integridade dos dados por meio de algo conhecido como gestão de dados. Essa é a prática de criar, atualizar e aplicar consistentemente os processos, regras e padrões que evitam erros, perda de dados, corrupção de dados, uso inadequado de dados confidenciais ou regulamentados e violações de dados.
Uma organização com um alto nível de integridade de dados pode:
Uma boa integridade de dados também pode melhorar os resultados das decisões de negócios, aumentando a precisão da análise de dados de uma organização. Quanto mais completo, preciso e consistente for um conjunto de dados, mais informados a business intelligence e os processos de negócios se tornarão. Como resultado, os líderes estão mais bem preparados para definir e atingir metas que trazem benefício para a organização e geram confiança de funcionários e consumidores.
Tarefas de ciência de dados, como aprendizado de máquina, também se beneficiam muito de uma boa integridade de dados. Quando um modelo de aprendizado de máquina subjacente está sendo treinado em registros de dados confiáveis e precisos, melhor esse modelo será em fazer previsões de negócios ou automatizar tarefas.
Existem duas categorias principais de integridade de dados: integridade física de dados e integridade lógica de dados.
A integridade física de dados é a proteção da integridade de dados (o que significa que os dados não estão perdendo informações importantes), acessibilidade e precisão enquanto os dados estão armazenados ou em trânsito. Desastres naturais, quedas de energia, erros humanos e ataques cibernéticos representam riscos à integridade física de dados.
A integridade lógica de dados refere-se à proteção da consistência e da integridade de dados enquanto estão sendo acessados por diferentes stakeholders e aplicações em diferentes departamentos, disciplinas e locais. A integridade lógica de dados é alcançada por:
A segurança de dados é um subcomponente da integridade dos dados e refere-se às medidas tomadas para impedir o acesso não autorizado de dados ou manipulação de dados. Protocolos e ferramentas eficazes de segurança de dados contribuem para uma forte integridade dos dados. Em outras palavras, a segurança de dados é o meio, enquanto a integridade dos dados é o objetivo. A capacidade de recuperação de dados (no caso de uma violação, ataque, queda de energia ou interrupção do serviço) se enquadra no âmbito da segurança de dados.
Erros humanos, erros de transferência, atos maliciosos, segurança insuficiente e mau funcionamento de hardware contribuem para os “dados ruins”, o que impacta negativamente a integridade dos dados de uma organização. Uma organização que enfrenta um ou mais desses problemas corre o risco de sofrer:
Dados de baixa qualidade levam a tomada de decisão inadequada devido à análise de dados imprecisa e desinformada. A redução da qualidade de dados pode resultar em perdas de produtividade, queda de receita e danos à reputação.
Dados que não estão devidamente protegidos correm um risco maior de violação de dados ou de serem perdidos em desastres naturais ou outros eventos não planejados. E, sem os insights e controles adequados sobre a segurança de dados, uma organização pode mais facilmente deixar de cumprir as regulamentações locais, regionais e globais, como o Regulamento Geral de Proteção de Dados da União Europeia.
A qualidade de dados é essencialmente a medida da integridade de dados. A precisão, integridade, consistência, validade, singularidade e pontualidade de um conjunto de dados são as medidas de qualidade de dados que as organizações empregam para determinar a utilidade e a eficácia dos dados para um determinado caso de uso comercial.
Os analistas de qualidade de dados avaliarão um conjunto de dados usando as dimensões listadas acima e atribuirão uma pontuação geral. Quando os dados têm uma classificação alta em todas as dimensões, são considerados dados de alta qualidade que são confiáveis e confiáveis para o caso de uso ou aplicação pretendido. Para medir e manter dados de alta qualidade, as organizações usam regras de qualidade de dados, também conhecidas como regras de validação de dados, para garantir que os conjuntos de dados atendam aos critérios definidos pela organização.
Os usuários corporativos e cientistas de dados não precisam perder tempo localizando ou formatando dados em sistemas díspares. Em vez disso, podem acessar e analisar prontamente conjuntos de dados com maior confiança. Economiza-se o tempo adicional que, de outra forma, seria desperdiçado agindo em relação a dados incompletos ou imprecisos.
Como os dados são formatados de forma consistente e contextualizados para o usuário ou a aplicação, as organizações podem obter valor de dados que poderiam ter sido descartados ou ignorados.
Dados de alta qualidade eliminam inconsistências entre sistemas e departamentos e garantem dados consistentes em processos e procedimentos. A colaboração e a tomada de decisão entre os stakeholders são aprimoradas porque todos dependem dos mesmos dados.
Dados de alta qualidade são fáceis de localizar e acessar. Como não há necessidade de recriar ou rastrear conjuntos de dados, os custos de mão de obra são reduzidos e os erros de entrada manual de dados tornam-se menos prováveis. E, como dados de alta qualidade são fáceis de armazenar no ambiente correto, bem como de coletar e compilar relatórios obrigatórios, uma organização pode garantir uma melhor conformidade e evitar penalidades regulatórias.
Dados de alta qualidade fornecem insights mais precisos e profundos que uma organização pode usar para fornecer uma experiência mais personalizada e impactante para funcionários e clientes.
Para determinar a qualidade de dados e atribuir uma pontuação geral, os analistas avaliam um conjunto de dados utilizando estas seis dimensões, também conhecidas como características de dados:
Quanto maior a pontuação de um conjunto de dados em cada uma dessas dimensões, maior será sua pontuação geral. Uma pontuação geral alta indica que um conjunto de dados é confiável, facilmente acessível e relevante.
Algumas iniciativas e métodos comuns que as organizações usam para melhorar a qualidade de dados incluem:
A criação de perfis de dados, também conhecida como avaliação da qualidade de dados, é o processo de auditoria dos dados de uma organização em seu estado atual. Isso é feito para descobrir erros, imprecisões, lacunas, dados inconsistentes, duplicações e barreiras de acessibilidade. Você pode usar diversas ferramentas de qualidade de dados para criar o perfil de conjuntos de dados e detectar anomalias que precisam de correção.
A limpeza de dados é o processo de remediar os problemas de qualidade de dados e inconsistências descobertas durante a criação de perfis de dados. Isso inclui a eliminação de duplicações de conjuntos de dados, para que várias entradas de dados não existam inadvertidamente em vários locais.
Esse é o processo de conformidade de ativos de dados díspares e big data não estruturado em um formato consistente que garanta que os dados estejam completos e prontos para uso, independentemente da fonte de dados. Para padronizar os dados, são aplicadas business rules para garantir que os conjuntos de dados estejam em conformidade com as normas e necessidades de uma organização.
Geocódigo é o processo de adicionar metadados de localização aos conjuntos de dados de uma organização. Ao marcar dados com coordenadas geográficas para rastrear sua origem, onde esteve e onde reside, uma organização pode garantir que as normas de dados geográficos nacionais e globais estejam sendo atendidas. Por exemplo, os metadados geográficos podem ajudar uma organização a garantir que a sua gestão de dados de clientes se mantenha em conformidade com o GDPR.
Esse é o método de identificar, mesclar e resolver dados duplicados ou redundantes.
A manutenção de uma boa qualidade de dados requer um gerenciamento contínuo de qualidade de dados. O monitoramento da qualidade de dados é a prática de revisitar conjuntos de dados previamente pontuados e reavaliá-los com base nas seis dimensões da qualidade de dados. Muitos analistas de dados usam um dashboard de qualidade de dados para visualizar e rastrear KPI de qualidade de dados.
Trata-se da implementação de regras de validação de dados em todas as aplicações e tipos de dados em escala para garantir que todos os conjuntos de dados atendam a padrões específicos. Isso pode ser feito periodicamente como um processo em lote ou continuamente em tempo real por meio de processos como captura de dados de alterações.
Gerenciamento de dados mestre (MDM) é o ato de criar e manter um registro de dados centralizado em toda a organização, onde todos os dados são catalogados e rastreados. Isso proporciona à organização um único local para visualizar e avaliar rapidamente seus conjuntos de dados, independentemente de onde esses dados residam ou de seu tipo. Por exemplo, os dados de clientes, informações da cadeia de suprimentos e dados de marketing residiriam em um ambiente de MDM.
A IBM oferece uma ampla gama de recursos integrados de qualidade de dados e governança de dados, incluindo criação de perfis de dados, limpeza de dados, monitoramento de dados, correspondência de dados e enriquecimento de dados, para garantir que os consumidores de dados tenham acesso a dados confiáveis e de alta qualidade. A solução de gestão de dados da IBM ajuda as organizações a estabelecer uma base automatizada, orientada por metadados, que atribui pontuações de qualidade de dados aos ativos e melhora a seleção via regras de automação prontas para uso, para simplificar o gerenciamento da qualidade de dados.
Com recursos de observabilidade de dados, a IBM pode ajudar as organizações a detectar e resolver problemas nos pipelines de dados com mais rapidez. A parceria com a Manta para recursos automatizados de linhagem de dados permite que a IBM ajude os clientes a encontrar, rastrear e evitar problemas mais próximos da fonte.
Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.
O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.
Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.