Início
topics
Eliminação de duplicações de dados
Publicado em: 3 de janeiro de 2024
Colaboradores: Phill Powell, Ian Smalley
A eliminação de duplicações de dados é um processo de simplificação no qual os dados redundantes são reduzidos por meio da eliminação de cópias extras das mesmas informações. O objetivo da eliminação de duplicações de dados, ou "dedupe", como é comumente abreviado, é reduzir as necessidades de armazenamento contínuo de uma organização.
A organização pode implementar processos e técnicas de eliminação de duplicações de dados para garantir que exista apenas uma instância única de dados em seu sistema de armazenamento. Os dados duplicados ou redundantes são removidos, e os usuários são direcionados para uma única instância dos dados.
Quando a eliminação de duplicações de dados é bem-sucedida, ela pode melhorar a utilização geral do armazenamento de uma organização e ajudar a reduzir custos.
Conheça os pontos problemáticos comuns dos clientes com os quais a AI pode lidar, quais recursos estão disponíveis atualmente e como o IBM Z é a plataforma de IA ideal.
Então, por que uma empresa criaria dados duplicados? Pode haver um ou mais motivos válidos, incluindo os seguintes:
Outro motivo importante para a duplicação de dados é simplesmente o fato de que isso ocorre com frequência na maioria das organizações com vários departamentos. Os dados são criados ou recriados regularmente como uma função orgânica e aceita de fazer negócios em um contexto moderno. Portanto, a criação ou a replicação de dados não é o problema real, mas sim a proliferação excessiva de dados.
Se não houvesse nenhum ônus financeiro extra associado a isso, a proliferação de dados poderia parecer um problema menor do que é. Uma organização pode optar por armazenar dados em vários locais de sua arquitetura de TI e não se preocupar com essas redundâncias.
Mas o fato é que uma empresa incorre em penalidades financeiras ao manter um grande número de redundâncias de dados na forma de custos extras de armazenamento. As organizações que não conseguem parar de criar redundâncias de dados precisam alocar mais mão de obra e orçamento para implementar novas soluções de armazenamento e gerenciamento de dados, sejam elas baseadas em novas aquisições de hardware ou em armazenamento em nuvem adicional.
O benefício mais óbvio das técnicas de eliminação de duplicação de dados é que a eliminação de dados estranhos diminui a quantidade total de dados que uma organização precisa armazenar e gerenciar. Isso aumenta efetivamente a capacidade de armazenamento de uma organização, pois há menos dados para ocupar o espaço de armazenamento.
Além da redução dos custos de armazenamento, a eliminação de duplicação de dados oferece outras vantagens importantes, como a promoção de planos de backup de dados e o suporte a etapas de emergência para proteger a recuperação de desastres.
Outra vantagem é revitalizar a integridade dos dados, removendo os dados de "peso morto" e se certificando de que os dados restantes tenham sido devidamente limpos. Foi demonstrado que os dados duplicados eliminados funcionam melhor e consomem menos energia.
Outro benefício da eliminação de duplicação de dados é o bom funcionamento com implementações da infraestrutura de desktop virtual (VDI), graças ao fato de que os discos rígidos virtuais por trás dos desktops remotos da VDI operam de forma idêntica. Produtos populares de Desktop como serviço (DaaS) incluem o Azure Virtual Desktop, da Microsoft, e seu Windows VDI. Esses produtos criam virtual machines (VMs), que são criadas durante o processo de virtualização do servidor. Por sua vez, essas virtual machines capacitam a tecnologia de VDI.
Em seu nível mais básico, a eliminação de duplicação de dados opera por meio de funções automatizadas para identificar duplicações em blocos de dados e, em seguida, remover essas duplicações. Ao trabalhar nesse nível de bloco, pedaços de dados únicos podem ser analisados e especificados como dignos de preservação. Então, quando o software de eliminação de duplicação detecta uma repetição do mesmo bloco de dados, essa repetição é removida, e uma referência aos dados originais é incluída em seu lugar.
Um método alternativo de eliminação da duplicação de dados opera no nível de arquivo. O armazenamento de dados de instância única compara cópias completas de dados no sistema de arquivos, mas não pedaços ou blocos de dados. Assim como seu método equivalente, a eliminação da duplicação de arquivos depende da manutenção do arquivo original e da remoção de cópias extras.
As técnicas de eliminação de duplicação não funcionam exatamente da mesma maneira que os algoritmos de compactação de dados (por exemplo, LZ77, LZ78), embora seja verdade que ambos têm o mesmo objetivo geral de reduzir as redundâncias de dados. As técnicas de eliminação de duplicação conseguem isso em uma escala maior e macro do que os algoritmos de compactação, cujo objetivo é menos a substituição de arquivos idênticos por cópias compartilhadas e mais a codificação eficiente de redundâncias de dados.
Há dois tipos básicos de eliminação de duplicação de dados, que dependem de quando os processos ocorrem.
Essa forma de eliminação de duplicação de dados ocorre em tempo real, à medida que os dados fluem no sistema. O sistema transporta menos tráfego de dados porque não transfere nem armazena dados duplicados. Isso pode levar a uma redução na quantidade total de largura de banda necessária para essa organização.
Esse tipo de eliminação de duplicação ocorre depois que os dados foram gravados e colocados em algum tipo de dispositivo de armazenamento.
Ambos os tipos de eliminação de duplicação de dados são afetados pelos cálculos de hash inerentes à eliminação de duplicação de dados. Esses cálculos criptográficos são essenciais para identificar padrões repetidos nos dados. Durante a eliminação de duplicação em linha, esses cálculos são realizados no momento, o que pode dominar e sobrecarregar temporariamente a funcionalidade do computador. Nas eliminações de duplicações pós-processamento, os cálculos de hash podem ser realizados a qualquer momento após a adição dos dados.
As diferenças sutis entre os tipos de eliminação de duplicação não param por aí. Uma segunda maneira de classificar os tipos de eliminação de duplicação é baseada em onde esses processos ocorrem.
Essa forma de eliminação de duplicação ocorre perto de onde novos dados são gerados. O sistema examina essa área e detecta novas cópias de arquivos, que são removidas.
A eliminação de duplicação de destino é, basicamente, uma inversão da eliminação de duplicação de origem. Na eliminação de duplicação de destino, o sistema elimina a duplicação de todas as cópias encontradas em áreas diferentes daquelas nas quais os dados originais foram criados.
Como existem diferentes tipos de métodos de eliminação de duplicação que são praticados, as organizações com visão de futuro devem tomar decisões cuidadosas e ponderadas com relação ao tipo de eliminação de duplicação que escolherem, equilibrando esse método com as necessidades específicas da empresa.
Em muitos casos de uso, a escolha do método de eliminação de duplicação de uma organização pode muito bem se resumir a diversas variáveis internas, como as seguintes:
Minimize o potencial de interrupções operacionais e isole as cargas de trabalho de ataques de ransomware e outras ameaças cibernéticas. Acrescente velocidade à sua postura de resiliência cibernética, para que sua empresa sofra menos perdas e retorne às operações normais mais rapidamente.
Traga poder para o backup e recuperação de dados com o IBM Storage Protect. Conheça o software que aprimora a resiliência dos dados dos servidores de arquivos físicos, proporcionando eficiência extra e uma solução escalável para controlar bilhões de objetos por servidor de backup.
Reduza os custos de infraestrutura de armazenamento com uma solução de armazenamento de dados no local. Você traz os dados — a IBM fornece o sistema de armazenamento. O hardware flashsystem e IBM DS8900F oferecem a você um modelo STaaS mais flexível, baseado em consumo, que opera como uma nuvem.
Explore os fundamentos do armazenamento de dados, incluindo tipos de dispositivos e diferentes formatos de armazenamento de dados.
Entenda melhor como os dados fluem de um sistema de armazenamento ou ambiente de computação para outro.
Veja por que o gerenciamento de dados bem-sucedido começa com um sólido blueprint na forma de uma arquitetura de dados.
Não há tópico mais urgente em computação ou negócios. Conheça os fundamentos da proteção de dados.