¿Cómo funciona la deduplicación de datos?
29 de enero de 2024
6 minutos de lectura

En los últimos años se ha producido una explosión de la proliferación de unidades de autoalmacenamiento. Estas grandes unidades de almacén han surgido a nivel nacional como una industria en auge por una razón: la persona promedio ahora tiene más posesiones de las que sabe qué hacer con ellas.

La misma situación básica también afecta al mundo de las TI. Estamos en medio de una explosión de datos. Incluso objetos cotidianos relativamente simples ahora generan datos por sí solos gracias a la funcionalidad del Internet de las cosas (IoT) . Nunca antes en la historia se habían creado, recopilado y analizado tantos datos. Y nunca antes tantos administradores de datos se han enfrentado al problema de cómo almacenar tantos datos.

Al principio, una empresa puede no reconocer el problema o lo grande que puede llegar a ser, y luego esa empresa tiene que encontrar una solución de almacenamiento aumentado. Con el tiempo, la empresa también puede superar ese sistema de almacenamiento, lo que requiere aún más inversión. Inevitablemente, la empresa cubrirá este juego y buscará una opción más barata y sencilla, lo que nos lleva a la eliminación de datos duplicados.

Aunque muchas organizaciones utilizan técnicas de deduplicación de datos (o «deduplicación») como parte de su sistema de gestión de datos, no muchas entienden realmente qué es el proceso de deduplicación ni para qué sirve. Entonces, desmitifiquemos la deduplicación y expliquemos cómo funciona la deduplicación de datos.

¿Qué hace la deduplicación de datos?

Primero, aclaremos nuestro principal término. La deduplicación de datos es un proceso que las organizaciones utilizan para optimizar sus existencias de datos y reducir la cantidad de datos que archivan mediante la eliminación de copias redundantes de datos.

Además, debemos señalar que cuando hablamos de datos redundantes, en realidad estamos hablando a nivel de archivo y nos referimos a una proliferación desenfrenada de archivos de datos. Entonces, cuando hablamos de los esfuerzos de deduplicación de datos, en realidad lo que se necesita es un sistema de deduplicación de archivos.

¿Cuál es el objetivo principal de la deduplicación?

Algunas personas tienen una idea incorrecta sobre la naturaleza de los datos y los ven como un producto que simplemente existe para ser recolectado y cosechado, como las manzanas de un árbol de su propio patio trasero.

La realidad es que cada nuevo archivo de datos cuesta dinero. En primer lugar, suele costar dinero obtener dichos datos (a través de la compra de listas de datos). O requiere una inversión financiera sustancial para que una organización pueda recopilar y recopilar datos por sí misma, incluso si se trata de datos que la propia organización está produciendo y recopilando orgánicamente. Los conjuntos de datos, por lo tanto, son una inversión y, como cualquier inversión valiosa, deben protegerse rigurosamente.

En este caso, estamos hablando del espacio de almacenamiento de datos, ya sea en forma de servidores de hardware locales o a través del almacenamiento en la nube a través de un centro de datosbasado en la nube que debe adquirirse o alquilarse.

Por lo tanto, las copias duplicadas de los datos que se han replicado restan valor al resultado final al imponer costes de almacenamiento adicionales más allá de los asociados con el sistema de almacenamiento principal y su espacio de almacenamiento. En resumen, se deben dedicar más activos de medios de almacenamiento para acomodar tanto los datos nuevos como los datos ya almacenados. En algún momento de la trayectoria de una empresa, los datos duplicados pueden convertirse fácilmente en una responsabilidad financiera.

En resumen, el objetivo principal de la deduplicación de datos es ahorrar dinero al permitir que las organizaciones gasten menos en almacenamiento adicional.

Beneficios adicionales de la deduplicación

También hay otras razones, más allá de la capacidad de almacenamiento, para que las empresas adopten soluciones de deduplicación de datos, probablemente ninguna más esencial que la protección y mejora de datos que proporcionan. Las organizaciones refinan y optimizan las cargas de trabajo de datos deduplicados para que se ejecuten de manera más eficiente que los datos que están plagados de archivos duplicados.

Otro aspecto importante de la eliminación de datos duplicados es cómo ayuda a potenciar un esfuerzo de recuperación ante desastres rápido y exitoso y minimizar la cantidad de pérdida de datos que a menudo puede resultar de dicho evento. Dedupe ayuda a habilitar un proceso de copia de seguridad sólido para que el sistema de copia de seguridad de una organización esté a la altura de cómo gestionan sus datos de copia de seguridad. Además de ayudar con las copias de seguridad completas, la deduplicación también ayuda en los esfuerzos de retención.

Otro beneficio de la deduplicación de datos es lo bien que funciona con la implementación de infraestructuras de escritorios virtuales (VDI, por sus siglas en inglés), gracias a que los discos duros virtuales que hay detrás los escritorios remotos de las VDI funcionan de forma idéntica. Uno de los productos más populares de escritorio como servicio (DaaS) es Azure Virtual Desktop de Microsoft, y su VDI de Windows. Estos productos crean máquinas virtuales (VMs) virtuales (VMs) durante el proceso de virtualización del servidor. Y, a su vez, estas máquinas virtuales potencian la tecnología de VDI.

Metodología de deduplicación

La forma más utilizada de deduplicación de datos es la deduplicación de bloques. Este método funciona mediante el uso de funciones automatizadas para identificar duplicaciones en bloques de datos y, a continuación, eliminar esas duplicaciones. Al trabajar en este nivel de bloques, se pueden analizar fragmentos de datos únicos y determinar si merecen ser validados y conservados. Cuando el software de deduplicación detecta una repetición del mismo bloque de datos, se elimina y en su lugar se incluye una referencia a los datos originales.

Esa es la forma principal de deduplicación, pero no la única. En otros casos de uso, un método alternativo de deduplicación de datos opera a nivel de archivo. El almacenamiento de instancia única compara copias completas de datos dentro del servidor de archivos, pero no fragmentos o bloques de datos. Al igual que su método homólogo, la deduplicación de archivos depende de mantener el archivo original dentro del sistema de archivos y eliminar las copias adicionales.

Hay que tener en cuenta que las técnicas de deduplicación no funcionan de la misma manera que los algoritmos de compresión de datos (por ejemplo, LZ77, LZ78), aunque es cierto que ambos persiguen el mismo objetivo general de reducir las redundancias de datos. Las técnicas de deduplicación lo consiguen a mayor escala que los algoritmos de compresión, cuyo objetivo no es tanto reemplazar archivos idénticos con copias compartidas como codificar de manera eficiente las redundancias de datos.

Tipos de deduplicación de datos

Existen diferentes tipos de deduplicación de datos en función de cuándo se produzca el proceso de deduplicación:

  • Deduplicación en línea: Esta forma de deduplicación de datos se produce en el momento, en tiempo real, a medida que los datos fluyen dentro del sistema de almacenamiento. El sistema de deduplicación en línea transporta menos tráfico de datos porque no transfiere ni almacena datos duplicados. Esto puede suponer una reducción de la cantidad total de ancho de banda que necesita la organización.
  • Eliminación de datos duplicados posterior al procesamiento: este tipo de deduplicación de datos tiene lugar después de que los datos se hayan escrito y colocado en algún tipo de dispositivo de almacenamiento.

Aquí vale la pena explicar que ambos tipos de deduplicación de datos se ven afectados por los cálculos hash inherentes a la deduplicación de datos. Estos cálculos criptográficos son fundamentales para identificar patrones repetidos en los datos. Durante las deduplicaciones en línea, dichos cálculos se realizan en el momento, lo que puede acaparar y desbordar temporalmente la funcionalidad del equipo. En las deduplicaciones posteriores al procesamiento, los cálculos de hash se pueden realizar en cualquier momento después de agregar los datos de una manera y en un momento que no sobrecarguen los recursos informáticos de la organización.

Pero las pequeñas diferencias entre los tipos de deduplicación no acaban ahí. Otra forma de clasificar los tipos de deduplicación se basa en el lugar donde se desarrollan dichos procesos.

  • Deduplicación en origen: esta forma de deduplicación tiene lugar cerca de donde realmente se generan los nuevos datos. El sistema escanea esa zona y detecta nuevas copias de archivos, que luego se eliminan.
  • Deduplicación en destino: otro tipo de deduplicación es como la inversión de la deduplicación de origen. En la deduplicación en destino, el sistema deduplica las copias que se encuentran en áreas distintas de donde se crearon los datos originales.

Dado que existen diferentes tipos de tipos de prácticas de deduplicación, las organizaciones con visión de futuro deben tomar decisiones meditadas sobre el tipo de tipo de deduplicación elegida, y sopesar ese método en función de las necesidades particulares de la empresa.

En muchos casos de uso, el método de deduplicación escogido por una organización puede reducirse a diversas variables internas, como las siguientes:

  • La cantidad y el tipo de conjuntos de datos creados
  • El principal sistema de almacenamiento de la organización
  • Qué entornos virtuales se están usando
  • En qué aplicaciones confía la empresa
Desarrollos recientes en deduplicación de datos

Al igual que todos los resultados informáticos, la eliminación de datos duplicados está preparada para hacer un uso cada vez mayor de la inteligencia artificial (IA) a medida que sigue evolucionando. Dedupe se volverá cada vez más sofisticado a medida que desarrolle aún más matices que lo ayuden en la búsqueda de patrones de redundancia a medida que se escanean bloques de datos.

Una tendencia emergente en la deduplicación es el aprendizaje por refuerzo. Este utiliza un sistema de recompensas y penalizaciones (como en el entrenamiento de refuerzo) y aplica una política óptima para separar registros o fusionarlos.

Otra tendencia que vale la pena observar es el uso de métodos de conjunto, en los que se utilizan diferentes modelos o algoritmos en conjunto para garantizar una precisión aún mayor dentro del proceso de deduplicación.

El continuo dilema

El mundo de la TI se obsesiona cada vez más con el tema actual de la proliferación de datos y con qué hacer al respecto. Muchas empresas se encuentran en la incómoda posición de querer conservar todos los datos por los que se han esforzado en acumular y, al mismo tiempo, quieren guardar sus nuevos datos desbordados en cualquier contenedor de almacenamiento posible, aunque solo sea para quitárselos del medio.

Si bien este dilema persiste, el énfasis en los esfuerzos de deduplicación de datos continuará, ya que las organizaciones ven la deduplicación como la alternativa más barata a comprar más almacenamiento. Porque, en última instancia, aunque intuitivamente entendemos que el negocio necesita datos, también sabemos que los datos muy a menudo requieren deduplicación.

Autor
Phill Powell Writer