O que é a eliminação de duplicações de dados?

3 de janeiro de 2024

Autores

Phill Powell

Staff Writer

Ian Smalley

Senior Editorial Strategist

O que é deduplicação de dados?

A deduplicação de dados é um processo de otimização em que dados redundantes são reduzidos pela eliminação de cópias extras das mesmas informações. O objetivo da deduplicação de dados é diminuir as necessidades contínuas de armazenamento de uma organização.

As organizações podem implementar processos e técnicas de deduplicação de dados para garantir que apenas uma instância única de dados exista dentro de seu sistema de armazenamento. Dados duplicados ou redundantes são removidos, e os usuários são direcionados para uma única instância dos dados.

Quando a deduplicação de dados é bem-sucedida, ela pode melhorar a utilização geral do armazenamento de uma organização e ajudar a reduzir os custos.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

O que é a eliminação de duplicações de dados?

Então, por que uma empresa criaria dados duplicados? Pode haver uma ou mais razões válidas, incluindo as seguintes:

  • Uma organização ou um de seus departamentos pode precisar reutilizar dados originais, o que leva à criação de novas cópias de dados.
  • Uma empresa pode querer manter cópias duplicadas como parte de seu sistema de backup, para o caso de um evento de perda de dados.
  • Uma organização pode descobrir que manteve múltiplas cópias dos mesmos dados, mas armazenadas em formatos diferentes.

Outra razão importante para a duplicação de dados é simplesmente o fato de que isso costuma ocorrer naturalmente na maioria das organizações com vários departamentos. Dados são regularmente criados ou recriados como uma função orgânica e aceita no contexto moderno de negócios. Portanto, a criação ou replicação de dados em si não é o verdadeiro problema; a proliferação excessiva de dados é.

Se não houvesse encargos financeiros adicionais associados a isso, a proliferação de dados poderia parecer um problema menor do que realmente é. Uma organização poderia optar por armazenar dados em vários locais dentro de sua arquitetura de TI sem se preocupar com essas redundâncias.

Mas a realidade é que uma empresa incorre em penalidades financeiras ao manter um grande volume de redundâncias de dados, na forma de custos extras de armazenamento. Organizações que não conseguem parar de criar redundâncias de dados precisam alocar mais mão de obra e orçamento para implementar novas soluções de armazenamento e gerenciamento de dados, seja por meio da compra de novos hardwares ou da expansão do armazenamento em nuvem.

IBM Storage FlashSystem

IBM Storage FlashSystem: otimização do VMware para ter melhor custo, simplicidade e resiliência

Saiba como o IBM FlashSystem otimiza os ambientes VMware visando a economia, a simplicidade e a resiliência. Esta sessão destaca como o FlashSystem pode melhorar a segurança, a acessibilidade e o desempenho dos dados, fazendo dele a solução ideal para infraestruturas modernas de TI.

Benefícios da eliminação de duplicações de dados

O benefício mais óbvio das técnicas de deduplicação de dados é que eliminar dados supérfluos reduz a quantidade total de dados que uma organização precisa armazenar e gerenciar. Isso efetivamente aumenta a capacidade de armazenamento da organização, liberando espaço para outros usos.

Além da redução de custos de armazenamento, a deduplicação de dados oferece outras vantagens importantes, como o fortalecimento dos planos de backup de dados e o suporte às medidas de emergência para proteção de recuperação de desastres.

Outro benefício é a revitalização da integridade dos dados, removendo “dados mortos” e garantindo que os dados restantes estejam devidamente limpos. Dados deduplicados mostraram operar melhor e consumir menos energia.

Outro benefício da deduplicação de dados é sua eficiência em implementações de infraestruturas de desktop virtual (VDI), graças ao fato de que os discos rígidos virtuais por trás dos desktops remotos da VDI operam de maneira idêntica. Produtos populares de Desktop como Serviço (DaaS) incluem o Azure Virtual Desktop, da Microsoft, e o Windows VDI. Esses produtos utilizam máquinas virtuais (VMs), criadas durante o processo de virtualização de servidores, que viabilizam a tecnologia VDI.

Como funciona a eliminação de duplicação de dados?

Em seu nível mais básico, a deduplicação de dados funciona por meio de funções automatizadas que identificam duplicações em blocos de dados e, em seguida, removem essas duplicações. Trabalhando nesse nível de bloco, pedaços únicos de dados são analisados e marcados para preservação. Quando o software de deduplicação detecta uma repetição do mesmo bloco de dados, essa repetição é removida e substituída por uma referência ao dado original.

Um método alternativo de deduplicação de dados opera no nível de arquivo. O armazenamento de dados em instância única compara cópias completas de dados dentro do sistema de arquivos, mas não fragmentos ou blocos de dados. Assim como o método equivalente, a deduplicação de arquivos depende da manutenção do arquivo original e da remoção de cópias extras.

As técnicas de deduplicação não funcionam exatamente da mesma maneira que os algoritmos de compressão de dados (como LZ77, LZ78), embora ambos persigam o mesmo objetivo geral de reduzir redundâncias. A deduplicação atua em uma escala macro, substituindo arquivos idênticos por cópias únicas, enquanto os algoritmos de compressão focam mais em codificar eficientemente redundâncias de dados dentro dos próprios arquivos.

Tipos de eliminação de duplicações de dados

Existem dois tipos básicos de deduplicação de dados, dependendo de quando o processo ocorre:

Eliminação de duplicação em linha

Esta forma de deduplicação acontece em tempo real, enquanto os dados fluem dentro do sistema. O sistema transporta menos tráfego de dados, pois não transfere nem armazena dados duplicados, o que pode reduzir a quantidade total de largura de banda necessária para a organização.

Eliminação de duplicação pós-processo

Este tipo de deduplicação ocorre depois que os dados já foram gravados e armazenados em algum dispositivo de armazenamento.

Ambos os tipos de deduplicação de dados são afetados pelos cálculos de hash inerentes à deduplicação. Esses cálculos criptográficos são essenciais para identificar padrões repetidos nos dados. Durante a deduplicação em linha, esses cálculos são realizados em tempo real, o que pode dominar e temporariamente sobrecarregar a funcionalidade do computador. Já na deduplicação pós-processamento, os cálculos de hash podem ser realizados a qualquer momento após os dados terem sido armazenados.

As sutis diferenças entre os tipos de deduplicação não param por aí. Uma segunda maneira de classificar os tipos de deduplicação é baseada em onde esses processos ocorrem.

Eliminação de duplicação de origem

Essa forma de deduplicação acontece próximo ao local onde os novos dados são gerados. O sistema escaneia essa área e detecta novas cópias de arquivos, que são então removidas.

Eliminação de duplicação de destino

A deduplicação de destino é basicamente o oposto da deduplicação de origem. Na deduplicação de destino, o sistema deduplica quaisquer cópias encontradas em áreas diferentes daquelas onde os dados originais foram criados.

Como existem diferentes métodos de deduplicação praticados, organizações mais avançadas devem tomar decisões cuidadosas e bem ponderadas sobre o tipo de deduplicação que escolherão, equilibrando o método em função das necessidades específicas da empresa.

Em muitos casos de uso, o método de deduplicação escolhido por uma organização pode depender de várias variáveis internas, tais como:

  • Quantos e quais tipos de conjuntos de dados estão sendo criados
  • O principal sistema de armazenamento da organização
  • Quais ambientes virtuais estão em uso
  • Quais aplicativos são essenciais para a empresa
Soluções relacionadas
IBM Storage DS8000

O IBM Storage DS8900F é o sistema de armazenamento mais rápido, confiável e seguro para sistemas IBM Z e servidores IBM Power.

Explore Storage DS8000
Soluções de armazenamento de dados para empresas

O IBM Storage é uma família de soluções que inclui hardware de armazenamento de dados, armazenamento definido por software e software de gerenciamento de armazenamento.

Explore as soluções de armazenamento de dados
Serviços de suporte a hardware e software  

A IBM oferece suporte proativo para servidores web e infraestrutura de data centers, reduzindo o downtime e melhorando a disponibilidade de TI.

Serviços de servidores web
Dê o próximo passo

Desde o gerenciamento de ambientes de nuvem híbrida até a garantia de resiliência de dados, as soluções de armazenamento da IBM possibilitam que você extraia insights de seus dados e mantenha uma proteção robusta contra ameaças.

Explore as soluções de armazenamento de dados Faça um tour pelo produto