Minha IBM Efetue login Inscreva-se

Como funciona a eliminação de duplicação de dados?

29 de janeiro de 2024

6 min de leitura

Nos últimos anos houve uma explosão na proliferação de unidades de self-storage. Essas grandes unidades de armazenamento surgiram nacionalmente como uma indústria em expansão por uma razão: a pessoa média agora tem mais bens do que podem administrar.

A mesma situação básica também assola o mundo da TI. Estamos no meio de uma explosão de dados. Mesmo objetos do cotidiano relativamente simples agora geram dados rotineiramente por conta própria, graças à funcionalidade da Internet das Coisas (IoT). Nunca antes na história tantos dados foram criados, coletados e analisados. E nunca antes tantos gerentes de dados se depararam com o problema de como armazenar tantos dados.

Uma empresa pode inicialmente não reconhecer o problema ou o quão grande ele pode se tornar, então essa empresa tem que encontrar uma solução de armazenamento maior. Com o tempo, a empresa também pode superar esse sistema de armazenamento, exigindo ainda mais investimentos. Inevitavelmente, a empresa se cansará desse jogo e buscará uma opção mais barata e simples, o que nos leva à deduplicação de dados.

Embora muitas organizações utilizem técnicas de deduplicação de dados (ou “dedupe”) como parte de seu sistema de gerenciamento de dados, poucas realmente entendem o que é o processo de deduplicação e o que ele pretende fazer. Então, vamos desmistificar a deduplicação e explicar como funciona a deduplicação de dados.

O que a deduplicação faz?

Primeiro, vamos esclarecer nosso termo principal. A deduplicação de dados é um processo que as organizações usam para otimizar seus acervos de dados e reduzir a quantidade de dados arquivados, eliminando cópias redundantes de dados.

Além disso, devemos ressaltar que, quando falamos de dados redundantes, na verdade estamos falando no nível do arquivo e nos referindo a uma proliferação desenfreada de arquivos de dados. Então, quando discutimos os esforços de deduplicação de dados, na verdade é necessário um sistema de deduplicação de arquivos.

Qual é o principal objetivo da deduplicação?

Algumas pessoas têm uma noção incorreta sobre a natureza dos dados, vendo-os como uma mercadoria que simplesmente existe para ser coletada e colhida, como maçãs de uma árvore do seu próprio quintal.

A realidade é que cada novo arquivo de dados custa dinheiro. Em primeiro lugar, geralmente a obtenção desses dados custa dinheiro (por meio da compra de listas de dados). Ou exige um investimento financeiro substancial para uma organização ser capaz de recolher e reunir dados por conta própria, mesmo que sejam dados que a própria organização esteja produzindo e reunindo de forma orgânica. Portanto os conjuntos de dados são investimento e, como qualquer investimento valioso, devem ser protegidos com rigor.

Neste caso, estamos falando de espaço de armazenamento de dados, seja na forma de servidores de hardware locais ou por meio de armazenamento em nuvem por meio de um data centerbaseado em nuvem, que deve ser comprado ou alugado.

Portanto cópias duplicadas de dados que passaram por replicação prejudicam os resultados impondo custos adicionais de armazenamento além daqueles associados ao sistema de armazenamento primário e seu espaço de armazenamento. Resumindo, mais ativos de mídia de armazenamento devem ser dedicados para acomodar dados novos e dados já armazenados. Em algum momento da trajetória de uma empresa, dados duplicados podem facilmente se tornar um passivo financeiro.

Portanto, para resumir, o principal objetivo da deduplicação de dados é economizar dinheiro, permitindo que as organizações gastem menos em armazenamento extra.

Benefícios adicionais da deduplicação

Há também outras razões além da capacidade de armazenamento para as empresas adotarem soluções de deduplicação de dados, provavelmente nenhuma mais essencial do que a proteção de dados e o aprimoramento que elas oferecem. As organizações refinam e otimizam cargas de trabalho de dados deduplicadas para serem executadas com mais eficiência do que dados repletos de arquivos duplicados.

Outro aspecto importante da deduplicação é como ela ajuda a viabilizar um esforço de recuperação de desastres rápido e bem-sucedido e minimiza a quantidade de perda de dados que pode resultar desse tipo de evento. A deduplicação ajuda a permitir um processo de backup robusto para o sistema de backup de uma organização ficar à altura da tarefa de lidar com seus dados de backup. Além de ajudar com backups completos, a deduplicação também ajuda nos esforços de retenção.

Outro benefício da eliminação de duplicação de dados é o bom funcionamento em conjunto com implementações da infraestrutura de desktop virtual (VDI), graças ao fato de que os discos rígidos virtuais por trás dos desktops remotos da VDI operam de forma idêntica. Os produtos populares de Desktop como serviço (DaaS) são Azure Virtual Desktop da Microsoft e seu Windows VDI. Esses produtos criam máquinas virtuais (VMs) durante o processo de virtualização do servidor. Por sua vez, essas virtual machines capacitam a tecnologia de VDI.

Metodologia de eliminação de deduplicações

A forma mais comumente utilizada de deduplicação de dados é a deduplicação de blocos. Esse método opera utilizando funções automáticas para identificar duplicações em blocos de dados e, em seguida, remover essas duplicações. Trabalhando nesse nível de bloco, trechos de dados únicos podem ser analisados e especificados como dignos de validação e preservação. Então quando o software de eliminação de duplicação detecta uma repetição do mesmo bloco de dados, essa repetição é removida e é incluída e uma referência aos dados originais em seu lugar.

Essa é a principal forma de deduplicação, mas dificilmente o único método. Em outros casos de uso, um método alternativo de eliminação de duplicações de dados opera no nível do arquivo. O armazenamento de instância única compara cópias completas de dados no servidor de arquivos, mas não pedaços ou blocos de dados. Assim como seu método equivalente, a deduplicação de arquivos depende de manter o arquivo original dentro do sistema de arquivos e remover cópias extras.

Deve-se notar que as técnicas de eliminação de duplicação não funcionam exatamente da mesma maneira que os algoritmos de compactação de dados (por exemplo, LZ77, LZ78), embora seja verdade que ambos têm o mesmo objetivo geral de reduzir as redundâncias de dados. As técnicas de eliminação de duplicação conseguem isso em uma escala maior e macro do que os algoritmos de compactação, cujo objetivo é menos a substituição de arquivos idênticos por cópias compartilhadas e mais a codificação mais eficiente de redundâncias de dados.

Tipos de eliminação de duplicações de dados

Há diversos tipos de deduplicação de dados, dependendo de quando o processo de deduplicação ocorre:

  • Deduplicação em linha: Essa forma de deduplicação de dados ocorre no momento, em tempo real, à medida que os dados fluem dentro do sistema de armazenamento. O sistema de eliminação de duplicações em linha transporta menos tráfego de dados porque não transfere nem armazena dados duplicados. Isso pode levar a uma redução na quantidade total de largura de banda necessária para essa organização.
  • Deduplicação pós-processo: esse tipo de deduplicação ocorre após os dados terem sido gravados e colocados em algum tipo de dispositivo de armazenamento.

Aqui vale a pena explicar que ambos os tipos de deduplicação de dados são afetados pelos cálculos de hash inerentes à deduplicação de dados. Esses cálculos criptográficos são essenciais para identificar padrões repetidos nos dados. Durante a eliminação de duplicação em linha, esses cálculos são realizados no momento, o que pode dominar e sobrecarregar temporariamente a funcionalidade do computador. Nas deduplicações pós-processamento, os cálculos de hash podem ser realizados a qualquer momento após a adição dos dados, de forma e em um momento que não sobrecarregue os recursos computacionais da organização.

As diferenças sutis entre os tipos de eliminação de duplicação não param por aí. Outra maneira de classificar os tipos de eliminação de duplicação é baseada em onde esses processos ocorrem.

  • Deduplicação de origem: essa forma de deduplicação ocorre perto de onde os novos dados são realmente gerados. O sistema examina essa área e detecta novas cópias de arquivos, que são removidas.
  • Deduplicação de destino: outro tipo de deduplicação é como uma inversão da deduplicação de origem. Na eliminação de duplicação de destino, o sistema elimina a duplicação de todas as cópias encontradas em áreas diferentes daquelas nas quais os dados originais foram criados.

Como há diversos tipos de eliminação de duplicação, as organizações com visão de futuro devem tomar decisões cuidadosas e ponderadas com relação ao tipo de eliminação de duplicação escolhido, equilibrando esse método com as necessidades específicas da empresa.

Em muitos casos de uso, a escolha do método de eliminação de duplicação de uma organização pode muito bem se resumir a uma variedade de variáveis internas, como as seguintes:

  • Quantos e quais tipos de conjuntos de dados estão sendo criados
  • O sistema de armazenamento primário da organização
  • Quais ambientes virtuais estão em uso
  • Quais aplicativos a empresa utiliza

Desenvolvimentos recentes de deduplicação de dados

Assim como toda saída de computador, a deduplicação de dados está preparada para fazer uso cada vez maior da inteligência artificial (IA) à medida que continua a evoluir. A dedupe se tornará cada vez mais sofisticada à medida que desenvolver ainda mais nuances que a ajudarão na busca por padrões de redundância à medida que blocos de dados forem escaneados.

Uma tendência emergente na deduplicação é o aprendizado por reforço. Isso utiliza um sistema de recompensas e penalidades (como no treinamento de reforço) e aplica uma política ideal para separar registros ou mesclá-los.

Outra tendência que vale a pena observar é o uso de métodos de conjunto, nos quais diferentes modelos ou algoritmos são utilizados em conjunto para garantir uma precisão ainda maior no processo de deduplicação.

O dilema permanente

O mundo da TI está se tornando cada vez mais obcecado pelo problema constante da proliferação de dados e o que fazer a respeito. Muitas empresas encontram-se na posição embaraçosa de querer simultaneamente reter todos os dados que trabalharam para reunir e também querer colocar seus novos dados em qualquer contêiner de armazenamento possível, mesmo que apenas para tirá-los do caminho.

Enquanto esse dilema persistir, a ênfase nos esforços de deduplicação de dados continuará, pois as organizações veem a deduplicação como a alternativa mais barata do que comprar mais armazenamento. Porque, em última análise, embora entendamos intuitivamente que os negócios precisam de dados, também sabemos que os dados muitas vezes exigem a eliminação de duplicações.

Autor

Phill Powell

Staff Writer