¿Qué es la deduplicación de datos?

La luz del atardecer ilumina el cable de acero del puente

Autores

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

¿Qué es la deduplicación de datos?

La deduplicación de datos es un proceso de optimización en el que los datos redundantes se reducen eliminando copias adicionales de la misma información. El objetivo de la deduplicación de datos, o "dedupe" como se abrevia comúnmente, es disminuir las necesidades continuas de almacenamiento de una organización.

Las organizaciones pueden implementar procesos y técnicas de deduplicación de datos para asegurarse de que solo existe una instancia única de datos dentro de su sistema de almacenamiento. Los datos duplicados o redundantes se eliminan y los usuarios son dirigidos a una única instancia de los datos.

Cuando la deduplicación de datos es eficaz, puede mejorar la utilización general del almacenamiento de una organización y ayudar a reducir costos.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

¿Por qué es necesaria la deduplicación de datos?

De todos modos, ¿por qué iba una empresa a crear datos duplicados? Podría haber una o más de cualquier número de razones válidas, incluyendo las siguientes:

Una organización o uno de sus departamentos puede necesitar dar una nueva finalidad a los datos originales, por lo que se crean nuevas copias de datos.
Una empresa podría querer conservar copias duplicadas como parte de su sistema de copias de seguridad en caso de que se produzca un evento de pérdida de datos.
Una organización podría descubrir que ha conservado múltiples copias de los mismos datos, pero almacenados en formatos diferentes.

Otra razón clave para la duplicación de datos es simplemente porque eso es lo que suele ocurrir en la mayoría de las organizaciones multidepartamentales. Los datos se crean o se vuelven a crear regularmente como una función aceptada y orgánica de hacer negocios en un contexto moderno. Por lo tanto, la creación o replicación de datos no es el problema real, sino la proliferación excesiva de datos.

Si no hubiera cargas financieras adicionales asociadas a ella, la proliferación de datos podría parecer un problema menor de lo que es. Una organización podría optar por almacenar los datos en varias ubicaciones dentro de su arquitectura informática y no preocuparse por esas redundancias.

Pero el hecho es que una empresa incurre en penalizaciones financieras al mantener un gran número de redundancias de datos en forma de costos adicionales de almacenamiento. Las organizaciones que no pueden dejar de crear redundancias de datos necesitan asignar más mano de obra y presupuesto a la implementación de nuevas soluciones de almacenamiento y gestión de datos, ya sea que se basen en nuevas compras de hardware o en la incorporación de almacenamiento en la nube.

IBM Storage FlashSystem

IBM Storage FlashSystem: optimización de VMware para lograr costos, simplicidad y resiliencia

Descubra cómo IBM FlashSystem optimiza los entornos de VMware para lograr rentabilidad, simplicidad y resiliencia. Esta sesión destaca cómo FlashSystem puede mejorar la seguridad, la accesibilidad y el rendimiento de los datos, convirtiéndolo en una solución ideal para las infraestructuras de TI modernas.

Conozca IBM Storage FlashSystem

Beneficios de la deduplicación de datos

El beneficio más obvio de las técnicas de deduplicación de datos es que la eliminación de datos superfluos reduce la cantidad total de datos que una organización debe almacenar y gestionar. Esto aumenta de forma efectiva la capacidad de almacenamiento de una organización al tener menos datos para ocupar el espacio de almacenamiento.

Además de reducir los costos de almacenamiento, la deduplicación de datos ofrece otras ventajas clave, como el fomento de los planes de copia de seguridad de los datos y el apoyo a las medidas de emergencia para salvaguardar la recuperación ante desastres.

Otra ventaja es la revitalización de la integridad de los datos al eliminar los datos de "peso muerto" y asegurarse de que los datos restantes se han limpiado adecuadamente. Se ha demostrado que los datos deduplicados se ejecutan mejor e incorporan menos energía.

Otro beneficio de la deduplicación de datos es lo bien que funciona con los despliegues de infraestructura de escritorios virtuales (VDI), gracias al hecho de que los discos duros virtuales detrás de los escritorios remotos del VDI operan de manera idéntica. Los productos populares de Desktop as a Service (DaaS) incluyen Azure Virtual Desktop, de Microsoft y su Windows VDI. Estos productos fabrican máquinas virtuales (VM), que se crean durante el proceso de virtualización del servidor. A su vez, estas máquinas virtuales potencian la tecnología VDI

¿Cómo funciona la deduplicación de datos?

En su nivel más básico, la deduplicación de datos opera mediante funciones automatizadas para identificar duplicaciones en los bloques de datos y, a continuación, eliminarlas. Al trabajar a este nivel de bloque, los fragmentos de datos únicos pueden analizarse y especificarse como dignos de preservación. Entonces, cuando el software de deduplicación detecta una repetición del mismo bloque de datos, esa repetición se elimina y en su lugar se incluye una referencia a los datos originales.

Otra alternativa es la deduplicación de datos a nivel de archivo. El almacenamiento de datos de instancia única compara copias completas de datos dentro del sistema de archivos, pero no fragmentos o bloques de datos. Al igual que su método homólogo, la deduplicación de archivos depende de mantener el archivo original y eliminar las copias adicionales.

Las técnicas de deduplicación no funcionan exactamente igual que los algoritmos de compresión de datos (por ejemplo, LZ77, LZ78), aunque es cierto que ambos persiguen el mismo objetivo general de reducir las redundancias de datos. Las técnicas de deduplicación logran este objetivo a una escala mayor y macro que los algoritmos de compresión, cuyo objetivo consiste menos en reemplazar archivos idénticos por copias compartidas y más en codificar eficazmente las redundancias de datos.

Tipos de deduplicación de datos

Existen dos tipos básicos de deduplicación de datos que dependen del momento en que se produzcan los procesos.

Deduplicación en línea

Esta forma de deduplicación de datos se produce en tiempo real a medida que los datos fluyen dentro del sistema. El sistema soporta menos tráfico de datos porque no transfiere ni almacena datos duplicados. Esto puede suponer una reducción de la cantidad total de ancho de banda que necesita esa organización.

Deduplicación posterior al proceso

Este tipo de deduplicación tiene lugar después de que los datos hayan sido escritos y colocados en algún tipo de dispositivo de almacenamiento.

Ambos tipos de deduplicación de datos se ven afectados por los cálculos hash inherentes a la deduplicación de datos. Estos cálculos criptográficos son esenciales para identificar patrones repetidos en los datos. Durante la deduplicación en línea, esos cálculos se realizan en el momento, lo que puede dominar y sobrecargar temporalmente la funcionalidad de la computadora. En las deduplicaciones posteriores al proceso, los cálculos hash pueden realizarse en cualquier momento después de agregar los datos.

Las sutiles diferencias entre los tipos de deduplicación no acaban ahí. Una segunda forma de clasificar los tipos de deduplicación se basa en dónde estén estos procesos.

Deduplicación de origen

Esta forma de deduplicación tiene lugar cerca de donde se generan los nuevos datos. El sistema escanea esa zona y detecta nuevas copias de archivos, que luego se eliminan.

Deduplicación de destino

La deduplicación de destino es básicamente una inversión de la deduplicación de origen. En la deduplicación de destino, el sistema deduplica las copias que estén en zonas distintas de donde se crearon los datos originales.

Dado que existen diferentes tipos de métodos de deduplicación que se practican, las organizaciones con visión de futuro deben tomar decisiones cuidadosas y meditadas sobre el tipo de deduplicación que eligen, equilibrando ese método con las necesidades particulares de esa empresa.

En muchos casos de uso, el método de deduplicación elegido por una organización puede muy bien reducirse a diversas variables internas, como las siguientes:

Cuántos y qué tipo de conjuntos de datos se están creando
El sistema de almacenamiento primario de la organización
Qué entornos virtuales se utilizan
En qué aplicaciones confía la empresa

Descubra riesgos ocultos en su estrategia de almacenamiento y copia de seguridad

Obtenga una evaluación de resiliencia cibernética gratuita dirigida por expertos para evaluar la preparación de su infraestructura para la pérdida de datos, el ransomware y los eventos de recuperación. Llévese insights aplicables en la práctica y una hoja de ruta para fortalecer la continuidad de negocio.

Recursos

Gartner® Magic Quadrant™ 2025 para plataformas de almacenamiento empresarial

IBM ha sido reconocida como líder en el Gartner Magic Quadrant 2025 para plataformas de almacenamiento empresarial. Creemos que este reconocimiento subraya la dedicación de IBM para ofrecer soluciones de almacenamiento seguras, inteligentes y de alto rendimiento que permitan a las organizaciones acelerar su transformación digital.

Vea IBM Storage FlashSystem en acción con Storage Insights

Experimente IBM® Storage Insights de primera mano. Pruebe la demostración de autoservicio o regístrese para obtener una prueba gratuita para ver cómo el monitoreo predictivo optimiza el rendimiento de FlashSystem e impulsa las decisiones de ahorro de costos.

Maximice el rendimiento con la tecnología de almacenamiento flash

Conozca los tipos de memoria y almacenamiento flash y explore cómo las empresas utilizan esta tecnología para mejorar la eficiencia, reducir la latencia y preparar para el futuro su infraestructura de almacenamiento de datos.

Danish Meteorological Institute (DMI)

El almacenamiento integrado de IBM ayuda al DMI a ofrecer datos climáticos gratuitos al mundo. Con cinta unificada, disco y almacenamiento flash, el DMI reduce los costos de energía, escala de manera eficiente y crea una base sostenible para la IA y el machine learning.

Los líderes del almacenamiento de archivos y objetos se revelan: vea quién está en la cima

Gartner evalúa el rendimiento y la escalabilidad en las plataformas de almacenamiento más críticas de la actualidad para despliegues de nube híbrida.

Mejore la resiliencia cibernética con IBM® FlashSystem

Descubra cómo IBM® FlashSystem aumenta la seguridad y la resiliencia de los datos, al proteger contra el ransomware y los ciberataques con un rendimiento optimizado y estrategias de recuperación.

Mondi Group

Mondi Group migra a SAP S/4HANA en IBM Power Systems y almacenamiento FlashSystem. Con un tiempo de actividad del 100 %, soporte de crecimiento de datos de 9 TB/mes y un rendimiento de aplicación un 20 % más rápido, Mondi construye una base resiliente para la innovación de envases impulsada por la sustentabilidad.

Optimice las cargas de trabajo de datos e IA con las soluciones de almacenamiento de IBM

Aprenda a superar los retos a los que se enfrentan sus datos con un almacenamiento de archivos y objetos de alto rendimiento, diseñado para mejorar la IA, el machine learning y los procesos analíticos, a la vez que garantiza la seguridad y la escalabilidad de los datos.

Soluciones relacionadas

IBM FlashSystem

IBM FlashSystem es una cartera de soluciones de almacenamiento flash empresarial creadas para la velocidad, escalabilidad y protección de datos.

Explore IBM® FlashSystem

Soluciones de almacenamiento de datos empresariales

IBM Storage es una familia de hardware de almacenamiento de datos, almacenamiento definido por software y software de gestión del almacenamiento.

Explore las soluciones de almacenamiento de datos

Servicios de soporte de hardware y software

IBM ofrece soporte proactivo para servidores web e infraestructura de centros de datos para reducir el tiempo de inactividad y mejorar la disponibilidad de la TI.

Explore los servicios de servidores web

Dé el siguiente paso

Desde la gestión de entornos de nube híbrida hasta garantizar la resiliencia de los datos, las soluciones de almacenamiento de IBM le permiten desbloquear insights de sus datos a la vez que mantiene una sólida protección frente a las amenazas.