O que é a eliminação de duplicações de dados?
Elimine a duplicação de seus dados com as soluções da IBM Assine a newsletter da IBM
Pontos abstratos azuis

Publicado em: 3 de janeiro de 2024
Colaboradores: Phill Powell, Ian Smalley

O que é a eliminação de duplicações de dados?

A eliminação de duplicações de dados é um processo de simplificação no qual os dados redundantes são reduzidos por meio da eliminação de cópias extras das mesmas informações. O objetivo da eliminação de duplicações de dados, ou "dedupe", como é comumente abreviado, é reduzir as necessidades de armazenamento contínuo de uma organização.

A organização pode implementar processos e técnicas de eliminação de duplicações de dados para garantir que exista apenas uma instância única de dados em seu sistema de armazenamento. Os dados duplicados ou redundantes são removidos, e os usuários são direcionados para uma única instância dos dados.

Quando a eliminação de duplicações de dados é bem-sucedida, ela pode melhorar a utilização geral do armazenamento de uma organização e ajudar a reduzir custos.

Desmistificando dados com IA no IBM Z

Conheça os pontos problemáticos comuns dos clientes com os quais a AI pode lidar, quais recursos estão disponíveis atualmente e como o IBM Z é a plataforma de IA ideal.

Conteúdo relacionado

Registre-se para o ebook para modernizar seus aplicativos mais rapidamente

O que é a eliminação de duplicações de dados?

Então, por que uma empresa criaria dados duplicados? Pode haver um ou mais motivos válidos, incluindo os seguintes:

  • Uma organização ou um de seus departamentos pode precisar redirecionar dados originais, de modo que novas cópias de dados são criadas.
  • Uma empresa pode querer manter cópias duplicadas como parte de seu sistema de backup em caso de um evento de perda de dados.
  • Uma organização pode descobrir que manteve várias cópias dos mesmos dados, mas armazenadas em formatos diferentes.

Outro motivo importante para a duplicação de dados é simplesmente o fato de que isso ocorre com frequência na maioria das organizações com vários departamentos. Os dados são criados ou recriados regularmente como uma função orgânica e aceita de fazer negócios em um contexto moderno. Portanto, a criação ou a replicação de dados não é o problema real, mas sim a proliferação excessiva de dados.

Se não houvesse nenhum ônus financeiro extra associado a isso, a proliferação de dados poderia parecer um problema menor do que é. Uma organização pode optar por armazenar dados em vários locais de sua arquitetura de TI e não se preocupar com essas redundâncias.

Mas o fato é que uma empresa incorre em penalidades financeiras ao manter um grande número de redundâncias de dados na forma de custos extras de armazenamento. As organizações que não conseguem parar de criar redundâncias de dados precisam alocar mais mão de obra e orçamento para implementar novas soluções de armazenamento e gerenciamento de dados, sejam elas baseadas em novas aquisições de hardware ou em armazenamento em nuvem adicional.

Benefícios da eliminação de duplicações de dados

O benefício mais óbvio das técnicas de eliminação de duplicação de dados é que a eliminação de dados estranhos diminui a quantidade total de dados que uma organização precisa armazenar e gerenciar. Isso aumenta efetivamente a capacidade de armazenamento de uma organização, pois há menos dados para ocupar o espaço de armazenamento.

Além da redução dos custos de armazenamento, a eliminação de duplicação de dados oferece outras vantagens importantes, como a promoção de planos de backup de dados e o suporte a etapas de emergência para proteger a recuperação de desastres.

Outra vantagem é revitalizar a integridade dos dados, removendo os dados de "peso morto" e se certificando de que os dados restantes tenham sido devidamente limpos. Foi demonstrado que os dados duplicados eliminados funcionam melhor e consomem menos energia.

Outro benefício da eliminação de duplicação de dados é o bom funcionamento com implementações da infraestrutura de desktop virtual (VDI), graças ao fato de que os discos rígidos virtuais por trás dos desktops remotos da VDI operam de forma idêntica. Produtos populares de Desktop como serviço (DaaS) incluem o Azure Virtual Desktop, da Microsoft, e seu Windows VDI. Esses produtos criam virtual machines (VMs), que são criadas durante o processo de virtualização do servidor. Por sua vez, essas virtual machines capacitam a tecnologia de VDI.

Como funciona a eliminação de duplicação de dados?

Em seu nível mais básico, a eliminação de duplicação de dados opera por meio de funções automatizadas para identificar duplicações em blocos de dados e, em seguida, remover essas duplicações. Ao trabalhar nesse nível de bloco, pedaços de dados únicos podem ser analisados e especificados como dignos de preservação. Então, quando o software de eliminação de duplicação detecta uma repetição do mesmo bloco de dados, essa repetição é removida, e uma referência aos dados originais é incluída em seu lugar.

Um método alternativo de eliminação da duplicação de dados opera no nível de arquivo. O armazenamento de dados de instância única compara cópias completas de dados no sistema de arquivos, mas não pedaços ou blocos de dados. Assim como seu método equivalente, a eliminação da duplicação de arquivos depende da manutenção do arquivo original e da remoção de cópias extras.

As técnicas de eliminação de duplicação não funcionam exatamente da mesma maneira que os algoritmos de compactação de dados (por exemplo, LZ77, LZ78), embora seja verdade que ambos têm o mesmo objetivo geral de reduzir as redundâncias de dados. As técnicas de eliminação de duplicação conseguem isso em uma escala maior e macro do que os algoritmos de compactação, cujo objetivo é menos a substituição de arquivos idênticos por cópias compartilhadas e mais a codificação eficiente de redundâncias de dados.

Tipos de eliminação de duplicações de dados

Há dois tipos básicos de eliminação de duplicação de dados, que dependem de quando os processos ocorrem.

Eliminação de duplicação em linha

Essa forma de eliminação de duplicação de dados ocorre em tempo real, à medida que os dados fluem no sistema. O sistema transporta menos tráfego de dados porque não transfere nem armazena dados duplicados. Isso pode levar a uma redução na quantidade total de largura de banda necessária para essa organização.

Eliminação de duplicação pós-processo

Esse tipo de eliminação de duplicação ocorre depois que os dados foram gravados e colocados em algum tipo de dispositivo de armazenamento.

Ambos os tipos de eliminação de duplicação de dados são afetados pelos cálculos de hash inerentes à eliminação de duplicação de dados. Esses cálculos criptográficos são essenciais para identificar padrões repetidos nos dados. Durante a eliminação de duplicação em linha, esses cálculos são realizados no momento, o que pode dominar e sobrecarregar temporariamente a funcionalidade do computador. Nas eliminações de duplicações pós-processamento, os cálculos de hash podem ser realizados a qualquer momento após a adição dos dados.

As diferenças sutis entre os tipos de eliminação de duplicação não param por aí. Uma segunda maneira de classificar os tipos de eliminação de duplicação é baseada em onde esses processos ocorrem.

Eliminação de duplicação de origem

Essa forma de eliminação de duplicação ocorre perto de onde novos dados são gerados. O sistema examina essa área e detecta novas cópias de arquivos, que são removidas.

Eliminação de duplicação de destino

A eliminação de duplicação de destino é, basicamente, uma inversão da eliminação de duplicação de origem. Na eliminação de duplicação de destino, o sistema elimina a duplicação de todas as cópias encontradas em áreas diferentes daquelas nas quais os dados originais foram criados.

Como existem diferentes tipos de métodos de eliminação de duplicação que são praticados, as organizações com visão de futuro devem tomar decisões cuidadosas e ponderadas com relação ao tipo de eliminação de duplicação que escolherem, equilibrando esse método com as necessidades específicas da empresa.

Em muitos casos de uso, a escolha do método de eliminação de duplicação de uma organização pode muito bem se resumir a diversas variáveis internas, como as seguintes:

  • Quantos e quais tipos de conjuntos de dados estão sendo criados
  • O sistema de armazenamento primário da organização
  • Quais ambientes virtuais estão em uso
  • Quais aplicativos a empresa utiliza
Soluções relacionadas
IBM Storage FlashSystem

Minimize o potencial de interrupções operacionais e isole as cargas de trabalho de ataques de ransomware e outras ameaças cibernéticas. Acrescente velocidade à sua postura de resiliência cibernética, para que sua empresa sofra menos perdas e retorne às operações normais mais rapidamente.

Conheça o IBM Storage FlashSystem

IBM Storage Protect

Traga poder para o backup e recuperação de dados com o IBM Storage Protect. Conheça o software que aprimora a resiliência dos dados dos servidores de arquivos físicos, proporcionando eficiência extra e uma solução escalável para controlar bilhões de objetos por servidor de backup.

Explore o IBM Storage Protect

IBM Storage as a Service

Reduza os custos de infraestrutura de armazenamento com uma solução de armazenamento de dados no local. Você traz os dados — a IBM fornece o sistema de armazenamento. O hardware flashsystem e IBM DS8900F oferecem a você um modelo STaaS mais flexível, baseado em consumo, que opera como uma nuvem.

Explore o site IBM Storage como um sistema
Recursos O que é armazenamento de dados?

Explore os fundamentos do armazenamento de dados, incluindo tipos de dispositivos e diferentes formatos de armazenamento de dados.

O que é migração de dados?

Entenda melhor como os dados fluem de um sistema de armazenamento ou ambiente de computação para outro.

O que é arquitetura de dados?

Veja por que o gerenciamento de dados bem-sucedido começa com um sólido blueprint na forma de uma arquitetura de dados.

O que é segurança de dados?

Não há tópico mais urgente em computação ou negócios. Conheça os fundamentos da proteção de dados.

Dê o próximo passo

Simplifique o gerenciamento de dados e infraestrutura com o IBM Storage FlashSystem, uma solução de armazenamento all-flash de alto desempenho que simplifica a administração e a complexidade operacional em ambientes locais, na nuvem híbrida, virtualizados e conteinerizados.

    Explore o armazenamento do FlashSystem Faça um tour