¿En qué consiste la reducción de datos?

Radar móvil frente a un tornado

Autores

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

¿En qué consiste la reducción de datos?

La reducción de datos es el proceso por el que una organización establece un límite a la cantidad de datos que almacena.

Las técnicas de reducción de datos se utilizan para reducir la redundancia en el conjunto de datos original, de modo que grandes cantidades de datos originales puedan almacenarse de forma más eficiente a modo de datos reducidos.

Conviene subrayar desde el principio que el término "reducción de datos" no equivale automáticamente a una pérdida de información. En muchos casos, la reducción de datos solo significa que los datos se han almacenado de una forma más inteligente, tal vez después de haber pasado por el proceso de optimización, y se han vuelto a ensamblar con los datos relacionados en una configuración más práctica.

La reducción de datos tampoco es lo mismo que la deduplicación de datos, que consiste en eliminar copias adicionales de esos mismos datos con fines de simplificación. Para ser más precisos, la reducción de datos combina varios aspectos de diferentes actividades, como la deduplicación de datos y la consolidación de datos, para lograr sus objetivos.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Una visión más completa de los datos

Cuando hablamos de datos en el contexto de la reducción de datos, a menudo nos referimos a ellos en singular, en contraposición a la forma plural que se utiliza normalmente. Un aspecto de la reducción de datos, por ejemplo, es la definición de las dimensiones físicas reales de los puntos de datos individuales.

Hay una cantidad considerable de ciencia de datos implicada en la reducción de datos. Se trata de una materia a que puede ser bastante compleja y difícil de sintetizar, y este dilema ha dado lugar a su propio término: la interpretabilidad, es decir, la capacidad de un ser humano de inteligencia media para comprender un determinado modelo de machine learning.

Comprender el significado de algunos de estos términos supone un reto, ya que el dato se observa desde una perspectiva casi microscópica. Normalmente hablamos de los datos en su forma "macro", pero cuando se trata de la reducción de datos, a menudo nos referimos a ellos en su sentido más "micro". Para ser más exactos, la mayoría de los debates sobre este tema requerirán tanto discusiones a nivel macro como otras en el extremo micro de la escala.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Beneficios de la reducción de datos

Cuando una organización reduce la cantidad de datos que posee, suele conseguir importantes ahorros económicos en forma de menores costes de almacenamiento, ya que se necesita menos espacio de almacenamiento.

Los métodos de reducción de datos también ofrecen otras ventajas, como el aumento de la eficacia de los datos. Cuando se ha conseguido reducir los datos, los resultantes son más fáciles de utilizar por métodos de inteligencia artificial (IA) de diversas formas, incluidas sofisticadas aplicaciones de análisis que pueden agilizar enormemente las tareas de toma de decisiones.

Por ejemplo, una virtualización del almacenamiento, cuando se utiliza satisfactoriamente, facilita la coordinación entre los entornos de servidor y de escritorio, mejorando su eficacia y fiabilidad generales.

Las labores de reducción de datos desempeñan un papel clave en las actividades de minería de datos. Los datos deben estar lo más limpios y preparados posible antes de extraerlos para el análisis de datos.

Modelos de reducción de datos

Los siguientes son algunos de los métodos que las organizaciones pueden utilizar en la reducción de datos.

Reducción de dimensionalidad

La noción de dimensionalidad de los datos sustenta todo este concepto. La dimensionalidad se refiere al número de atributos (o características) asignados a un único conjunto de datos. Sin embargo, aquí hay una contrapartida: cuanto mayor sea la dimensionalidad, más almacenamiento de datos exigirá ese conjunto de datos. Además, a mayor dimensionalidad, más frecuente es que los datos tiendan a ser dispersos, lo que complica el necesario análisis de valores atípicos.

Reducir la dimensionalidad contrarresta ese efecto al limitar el "ruido" de los datos y permitir una mejor visualización de los mismos. Un ejemplo excelente de reducción de la dimensionalidad es el método de la transformada de ondícula, que facilita la compresión de imágenes al mantener la distancia relativa que existe entre los objetos en varios niveles de resolución.

La extracción de características es otra posible forma de transformar los datos. Se trata de convertir los datos originales en características numéricas y funciona conjuntamente con el machine learning. Se diferencia del análisis de componentes principales (ACP), otro método para reducir la dimensionalidad de grandes conjuntos de datos. En él, un conjunto considerable de variables se transforma en un conjunto más pequeño, pero conservando la mayor parte de los datos del conjunto grande.

Reducción de la numerosidad

Este otro método consiste en seleccionar un formato más pequeño y con menor uso intensivo de datos para su representación. Existen dos tipos de reducción de la numerosidad: la que se basa en métodos paramétricos y la que se basa en métodos no paramétricos. Los métodos paramétricos, como la regresión, se concentran en los parámetros del modelo, con exclusión de los propios datos. Del mismo modo, podría emplearse un modelo logarítmico-lineal que se centrara en los subespacios dentro de los datos. Mientras tanto, los métodos no paramétricos (como los histogramas, que muestran la forma en que se distribuyen los datos numéricos) no se basan en ningún modelo.

Agregación de cubos de datos

Los cubos de datos son una forma visual de almacenar datos. En realidad, el término "cubo de datos" es un tanto engañoso al implicar una singularidad, ya que en realidad describe un cubo grande y multidimensional formado por cuboides más pequeños y organizados. Cada uno de estos cuboides representa algún aspecto de los datos totales dentro de ese cubo de datos, en concreto fragmentos de datos relativos a medidas y dimensiones. La agregación de cubos de datos es, por tanto, la consolidación de datos en el formato visual de un cubo multidimensional, que reduce el tamaño de los datos al almacenarlos en un contenedor único y específico para ese fin.

Discretización de datos

Otro método de reducción de datos es la discretización de datos, en la que se crea un conjunto lineal de valores de datos basado en un conjunto definido de intervalos, cada uno de los cuales corresponde a un valor de datos específico.

Compresión de datos

Se pueden utilizar varios tipos de codificación para limitar el tamaño de los archivos y lograr una compresión de datos satisfactoria. En general, se considera que las técnicas de compresión de datos utilizan la compresión sin pérdidas o la compresión con pérdidas, y se agrupan según esos dos tipos. En la compresión sin pérdidas, el tamaño de los datos se reduce mediante técnicas y algoritmos de codificación, y los datos originales completos pueden restaurarse si es necesario. La compresión con pérdidas, en cambio, utiliza otros métodos de compresión. Aunque los datos procesados se conservan, no son una copia exacta, como ocurre con la compresión sin pérdidas.

Preprocesamiento de datos

Algunos datos deben limpiarse, tratarse y procesarse antes de someterlos a los procesos de análisis y reducción de datos. Parte de esta transformación puede implicar la conversión de los datos de analógicos a digitales. El binning es otro ejemplo de preprocesamiento de datos, en el que se utilizan valores medianos para normalizar diversos tipos de datos y garantizar la integridad de los datos en su conjunto.

Soluciones relacionadas
Software y soluciones de gestión de datos

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos
IBM watsonx.data

Watsonx.data le permite escalar el análisis y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y controlado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data