Inicio
Topics
Deduplicación de datos
Publicado: 3 de enero de 2024
Colaboradores: Phill Powell, Ian Smalley
La deduplicación de datos es un proceso de simplificación que consiste en reducir los datos redundantes eliminando copias adicionales de la misma información. El objetivo de la deduplicación de datos es reducir las necesidades continuas de almacenamiento de las organizaciones.
Al implementar procesos y técnicas de deduplicación de datos, se aseguran de que solo existe una única instancia de datos en su sistema de almacenamiento. De este modo, eliminan los datos duplicados o redundantes y remiten a los usuarios a una sola instancia de datos.
Cuando se aplica con éxito, la deduplicación de datos optimiza el espacio de almacenamiento y ayuda a reducir costes.
Conozca los puntos débiles más comunes que la IA puede resolver para los clientes, qué capacidades están disponibles en la actualidad y por qué IBM Z es la plataforma de IA ideal.
En primer lugar, ¿por qué las empresas tienen datos duplicados? Puede haber más una razón válida, como las siguientes:
Otro motivo clave por el que se duplican los datos es sencillamente porque eso es lo que suele ocurrir en la mayoría de las organizaciones multidepartamentales. La creación o recreación periódica de datos es una práctica aceptada y natural de la actividad empresarial moderna. Por lo tanto, el verdadero problema no es la creación o replicación de datos, sino su proliferación excesiva.
Si no conllevara una carga económica, la proliferación de datos podría parecer un problema menor de lo que es. Las organizaciones podrían optar por almacenar los datos en varias ubicaciones dentro de la arquitectura informática e ignorar dichas redundancias.
El problema es que mantener un gran número de datos redundantes supone una penalización económica en forma de costes adicionales de almacenamiento. Las organizaciones que no pueden dejar de crear datos redundantes necesitan destinar más mano de obra y presupuesto a implantar nuevas soluciones de almacenamiento y gestión de datos, ya sea en forma de nuevos equipos o en más espacio de almacenamiento en la nube.
El beneficio más obvio de las técnicas de deduplicación es que la eliminación de datos innecesarios reduce la cantidad total de datos que una organización debe almacenar y gestionar. Esto aumenta de forma efectiva la capacidad de almacenamiento de una organización al tener menos datos que ocupan espacio.
Además de reducir los costes de almacenamiento, la deduplicación de datos ofrece otras ventajas clave, como el desarrollo de los planes de data backup y el apoyo a las medidas de emergencia para salvaguardar la recuperación en caso de catástrofe.
Otra ventaja es la revitalización de la integridad de los datos, que se logra al eliminar los datos inútiles y asegurarse de que los restantes se han depurado correctamente. Se ha demostrado que los datos deduplicados son más eficaces y consumen menos energía.
Otro beneficio de la deduplicación de datos es lo bien que funciona con la implementación de infraestructuras de escritorios virtuales (VDI, por sus siglas en inglés), gracias a que los discos duros virtuales que hay detrás los escritorios remotos de las VDI funcionan de forma idéntica. Uno de los productos más populares de escritorio como servicio (DaaS) es Azure Virtual Desktop, de Microsoft, y su VDI de Windows. Estos productos crean máquinas virtuales (VMs) durante el proceso de virtualización del servidor. Y, a su vez, estas máquinas virtuales potencian la tecnología de VDI.
En su nivel más básico, la deduplicación de datos opera a través de funciones automatizadas para identificar duplicaciones en bloques de datos y, a continuación, eliminarlas. Al trabajar en este nivel de bloques, se pueden analizar fragmentos de datos únicos y determinar si merecen ser conservados. Cuando el software de deduplicación detecta una repetición del mismo bloque de datos, se elimina y en su lugar se incluye una referencia a los datos originales.
Otra alternativa es la deduplicación de datos a nivel de archivo. El almacenamiento de datos de instancia única compara copias completas de datos dentro del sistema de archivos, pero no fragmentos o bloques de datos. Al igual que su método homólogo, la deduplicación de archivos depende de mantener el archivo original y eliminar las copias adicionales.
Las técnicas de deduplicación no funcionan de la misma manera que los algoritmos de compresión de datos (por ejemplo, LZ77, LZ78), aunque es cierto que ambos persiguen el mismo objetivo general de reducir las redundancias de datos. Las técnicas de deduplicación lo consiguen a mayor escala que los algoritmos de compresión, cuyo objetivo no es tanto reemplazar archivos idénticos con copias compartidas como codificar de manera eficiente las redundancias de datos.
Existen dos tipos básicos de deduplicación de datos que dependen del momento en que se producen los procesos.
Esta forma de deduplicación de datos se produce en tiempo real a medida que los datos fluyen dentro del sistema. El sistema soporta menos tráfico de datos porque no transfiere ni almacena datos duplicados. Esto puede suponer una reducción de la cantidad total de ancho de banda que necesita la organización.
Este tipo de deduplicación tiene lugar después de que los datos se hayan escrito y colocado en algún tipo de dispositivo de almacenamiento.
Ambos tipos de deduplicación de datos se ven afectados por los cálculos hash inherentes a la deduplicación de datos. Estos cálculos criptográficos son fundamentales para identificar patrones repetidos en los datos. Durante la deduplicación en línea, dichos cálculos se realizan en el momento, lo que puede acaparar y desbordar temporalmente la funcionalidad del equipo. En las deduplicaciones posteriores al procesamiento, los cálculos hash se pueden realizar en cualquier momento después de añadir los datos.
Pero las pequeñas diferencias entre los tipos de deduplicación no acaban ahí. Una segunda forma de clasificar los tipos de deduplicación se basa en el lugar donde se desarrollan dichos procesos.
Esta forma de deduplicación tiene lugar cerca de donde se generan los nuevos datos. El sistema escanea esa zona y detecta nuevas copias de archivos, que luego se eliminan.
La deduplicación en destino es básicamente un proceso inverso a la deduplicación en origen. En la deduplicación en destino, el sistema deduplica las copias que se encuentran en áreas distintas de donde se crearon los datos originales.
Dado que existen diferentes tipos de métodos de deduplicación, las organizaciones con visión de futuro deben tomar decisiones meditadas sobre el tipo de deduplicación que eligen, y sopesar ese método en función de las necesidades particulares de la empresa.
En muchos casos de uso, el método de deduplicación escogido por una organización puede reducirse a diversas variables internas, como las siguientes:
Minimice el potencial de interrupciones operativas y aísle las cargas de trabajo de los ataques de ransomware y otras ciberamenazas. Añada velocidad a su estrategia de ciberresiliencia para que su empresa sufra menos pérdidas y vuelva a operar con normalidad más rápidamente.
Aumente la potencia de los procesos de recuperación y copia de seguridad de datos con IBM Storage Protect. Conozca el software que mejora la resiliencia de los datos de los servidores de archivos físicos y ofrece una mayor eficacia y una solución escalable para gestionar miles de millones de objetos por servidor de copia de seguridad.
Reduzca drásticamente los costes de infraestructura de almacenamiento con una solución de almacenamiento de datos local. Usted aporta los datos e IBM el sistema de almacenamiento. El hardware FlashSystem e IBM DS8900F le ofrecen un modelo STaaS más flexible, basado en el consumo y que funciona como una nube.
Explore los conceptos básicos del almacenamiento de datos, incluidos los tipos de dispositivos de almacenamiento y los diferentes formatos de almacenamiento de datos.
Conozca mejor cómo fluyen los datos de un sistema de almacenamiento o un entorno informático a otro.
Descubra por qué el éxito de la gestión de datos comienza con un plan sólido en forma de arquitectura de datos.
No hay nada más urgente en el sector informático o empresarial. Conozca los fundamentos de la protección de datos.