Mi IBM Iniciar sesión Suscríbase
¿Qué son los datos oscuros?

¿Qué son los datos oscuros?

Explorar la solución de datos oscuros de IBM Regístrese para recibir actualizaciones sobre IA
Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos
¿Qué son los datos oscuros?

¿Qué son los datos oscuros?

Según Gartner, los datos oscuros se refieren a los activos de información que las organizaciones recopilan, procesan y almacenan durante las actividades comerciales habituales, pero que generalmente no emplean para otros fines, como analytics, relaciones comerciales y monetización directa.1

Hoy en día, la mayoría de las compañías almacenan grandes cantidades de datos oscuros. En la encuesta de investigación global de Splunk a más de 1300 responsables de la toma de decisiones empresariales y de TI, el 60% de los encuestados informaron que la mitad o más de los datos de su organización se consideran oscuros. Un tercio de los encuestados informó que esta cantidad es del 75% o más.2

Los datos oscuros se acumulan porque las organizaciones adoptaron la idea de que es valioso almacenar toda la información que puedan capturar en grandes lagos de datos. Esto se debe en parte a la llegada de sistemas de almacenamiento económicos, que hicieron fácil justificar el almacenamiento de tantos datos (en caso de que algún día se vuelvan valiosos).

Al final, la mayoría de las compañías nunca usan ni siquiera una fracción de lo que almacenan porque el depósito de almacenamiento no documenta adecuadamente las etiquetas de metadatos, algunos de los datos están en un formato que las herramientas integradas no pueden leer o los datos no se pueden recuperar a través de una consulta.

Los datos oscuros son un factor limitante importante para producir un buen análisis de datos porque la calidad de cualquier análisis de datos depende del cuerpo de información accesible para las herramientas de analytics, tanto de forma rápida como con todo detalle.

Otros problemas con los datos oscuros son que crean responsabilidades, costos de almacenamiento significativos y oportunidades perdidas debido a que los equipos no se dan cuenta de qué datos están potencialmente disponibles para ellos.

Por qué la gobernanza de la IA es un imperativo empresarial para escalar la IA empresarial

Conozca las barreras para la adopción de IA, en particular la falta de soluciones de gobernanza y gestión de riesgos de IA.

Contenido relacionado Regístrese para obtener el informe de IDC
Por qué los datos se oscurecen

Por qué los datos se oscurecen

Existen numerosas causas para que los datos de una organización se oscurezcan, entre ellas:

  • Falta de conocimiento: los datos obtenidos en el curso de las operaciones comerciales normales a menudo se oscurecen porque las organizaciones desconocen su existencia o no entienden su valor o relevancia.

  • Datos atrapados en silos: cuando diferentes departamentos dentro de una organización recopilan y almacenan datos de forma independiente, esto puede provocar la fragmentación y el aislamiento de los datos. Es posible que estos silos de datos no sean accesibles o visibles para otros equipos, quienes potencialmente encontrarían los datos bastante valiosos.

  • Falta de gobernanza de datos: sin un marco estable de  gobernanza de datos, las organizaciones pueden tener dificultades para gestionar y rastrear los datos en todo su ecosistema de manera efectiva. Esto hace que los datos se desorganicen, se pierdan y queden inutilizables.

  • Sistemas heredados:  a medida que las organizaciones actualizan su software y hardware, los sistemas más antiguos pueden retirarse o volver menos relevantes. Los datos almacenados en estos sistemas heredados se oscurecen si no se pueden integrar con las herramientas de analytics modernas de la organización.

  • Integración de datos incompleta: los procesos de integración de datos incompletos o ineficaces pueden generar lagunas e inconsistencias en los datos. Esto puede dejar ciertos conjuntos de datos inaccesibles o no vinculados correctamente a otras fuentes de datos.

  • Cambio de las prioridades empresariales: a medida que evolucionan las prioridades empresariales, ciertos conjuntos de datos pueden volverse menos relevantes o quedar fuera de foco. Los datos que alguna vez se emplearon activamente pueden quedar en la oscuridad a medida que cambian los objetivos de la organización.

  • Recursos limitados y alfabetización: las organizaciones con recursos limitados pueden priorizar la recopilación y el almacenamiento de datos sobre el análisis de datos. Además, la alfabetización de datos insuficiente entre los empleados puede obstaculizar el descubrimiento y la utilización de datos valiosos.

  • Problemas de calidad de los datos: Una mala calidad de los datos, como datos inexactos o incompletos, puede hacer que se descarten o ignoren. Los datos percibidos como poco fiables tienen menos probabilidades de usarse, lo que los convierte en oscuros.

  • Propósitos de cumplimiento normativo: muchas normas de cumplimiento y gobernanza obligan a las organizaciones a seguir regulaciones estrictas sobre cuánto tiempo deben almacenar datos confidenciales. A menudo terminan almacenándolo mucho después del periodo obligatorio porque no pueden realizar un seguimiento de los datos confidenciales que deben destruir.

  • Datos redundantes, obsoletos y triviales (ROT): el ROT se crea cuando los empleados almacenan varias copias de la misma información, información obsoleta e información superflua que no ayuda a la organización a cumplir sus objetivos.
Tipos de datos oscuros

Tipos de datos oscuros

En términos de su detectabilidad para iniciativas de analytics de datos oportunas y completas, los datos oscuros pueden ser datos estructurados, datos no estructurados o datos semiestructurados.   

Los datos estructurados son información que se agrega a campos de hojas de cálculo o bases de datos claramente definidos antes del almacenamiento.

Los archivos de registro del servidor, los datos de sensores de Internet de las cosas (IoT), las bases de datos de gestión de relaciones con los clientes (CRM) y los sistemas de planeación de recursos empresariales (ERP) son ejemplos de datos oscuros creados a partir de fuentes de datos estructurados.

Aunque la mayoría de las formas de datos confidenciales, como los extractos bancarios electrónicos, los registros médicos y los datos cifrados de los clientes, suelen estar en forma estructurada, son difíciles de ver y categorizar debido a problemas de permisos.

A diferencia de los datos estructurados, los datos no estructurados incluyen información que no se puede organizar en bases de datos u hojas de cálculo para su análisis sin conversión, codificación, organización en niveles y estructuración.

Las correspondencias por correo electrónico, los archivos PDF, los documentos de texto, las publicaciones en redes sociales, las grabaciones de centros de atención telefónica, los registros de chat y las imágenes de video de vigilancia son ejemplos de datos oscuros creados a partir de fuentes de datos no estructuradas.

Los datos semiestructurados son datos no estructurados que contienen cierta información en campos de datos definidos. Aunque no tiene la misma facilidad de descubrimiento de datos oscuros que los datos estructurados, se pueden buscar o catalogar.

Algunos ejemplos son el código HTML, las facturas, los gráficos, las tablas y los documentos XML.

Los costos de los datos oscuros

Los costos de los datos oscuros

Los costos de almacenar datos oscuros pueden ser significativos y van mucho más allá del costo financiero directo del almacenamiento de datos oscuros. Los costos directos e indirectos incluyen:

Costos de almacenamiento de datos

El almacenamiento de datos, incluso si no se emplean activamente, requiere una infraestructura de almacenamiento física o digital. Esto puede incluir servidores, centros de datos, soluciones de almacenamiento en la nube y sistemas de copia de seguridad. Cuantos más datos haya en su ecosistema, más capacidad de almacenamiento de datos necesitará, lo que conduce a mayores costos de infraestructura.

Costos de responsabilidad

Los gobiernos han introducido una serie de leyes de privacidad globales en los últimos años, que se aplican a todos los datos, incluso a los datos que no se utilizan en los repositorios de analytics.

Costos de oportunidad

Muchas compañías pierden oportunidades al no emplear estos datos. Si bien es bueno deshacerse de los datos oscuros que en realidad no son utilizables, debido a los riesgos y costos, vale la pena analizar primero qué datos están disponibles para determinar cuáles podrían ser utilizables.

Costos de ineficiencia

La gestión de grandes volúmenes de datos, incluidos los datos oscuros, puede ralentizar los procesos de recuperación y análisis de datos. Los empleados pueden dedicar más tiempo a buscar información relevante, lo que reduce la productividad y aumenta los costos laborales.

Costos de riesgos

Los datos oscuros pueden plantear riesgos en términos de ciberseguridad insuficiente , filtraciones de datos , violaciones de cumplimiento y pérdida de datos. Estos riesgos pueden provocar daños a la reputación y consecuencias financieras.

Problemas de calidad de datos y datos oscuros

Problemas de calidad de datos y datos oscuros

A veces, los datos oscuros se crean debido a problemas de calidad de los datos.

Por ejemplo, una transcripción de una grabación de audio se genera automáticamente, pero la IA que creó la transcripción comete algunos errores en la transcripción. Sin embargo, alguien se queda con la transcripción, pensando que la resolverá en algún momento, cosa que nunca hace.

Cuando las organizaciones intentan limpiar datos de mala calidad, a veces pasan por alto lo que está causando el problema. Sin la comprensión adecuada, es imposible garantizar que el problema de la calidad de los datos no continúe ocurriendo en el futuro.

Esta situación se vuelve cíclica, porque en lugar de simplemente emplear políticas de eliminación para datos oscuros que se quedan sin usar, las organizaciones dejan que continúen ahí y contribuyan a un creciente problema de calidad de los datos.

Afortunadamente, hay tres pasos para la gestión de la calidad de los datos que las organizaciones pueden tomar para ayudar a aliviar este problema:

  1. Analice e identifique la situación "tal cual": para priorizar los problemas, primero identifique todos los problemas actuales, los estándares de datos existentes y el impacto en el negocio.

  2. Prevenir que los datos malos se repitan: a continuación, evalúe la causa principal de cada problema y aplique recursos para abordar el problema de manera sostenible para que no vuelva a suceder.

  3. Comuníquese a menudo en el camino: comparta lo que está sucediendo, lo que está haciendo el equipo, el impacto de ese trabajo y cómo esos esfuerzos se conectan con los objetivos del negocio.
Cómo arrojar luz sobre los datos oscuros

Cómo arrojar luz sobre los datos oscuros

A pesar de los costos y los problemas de calidad de los datos oscuros, hay aspectos positivos. Como dice Splunk, "los datos oscuros pueden ser uno de los mayores recursos sin explotar de una organización".3

Al adoptar un enfoque proactivo para gestionar los datos oscuros, las organizaciones pueden arrojar luz sobre los datos oscuros. Esto no solo reduce las responsabilidades y los costos, sino que también brinda a los equipos los recursos que necesitan para descubrir insights a partir de datos ocultos.

Cuando se trata de manejar datos oscuros y quizá usarlos para tomar mejores decisiones basadas en datos, existen varias mejores prácticas a seguir:

Rompa los silos

Los datos oscuros a menudo se deben a los silos dentro de la organización. Un equipo crea datos que podrían ser útiles para otro, pero ese otro equipo no lo sabe. Al descomponer esos silos, esos datos están disponibles para el equipo que los necesita. Pasa de quedarse sin uso a proporcionar un valor inmenso.

Mejore la gestión de datos

Es importante comprender qué datos existen dentro de la organización. Este esfuerzo comienza clasificando todos los datos dentro de la organización para obtener una visión completa y precisa. Desde allí, los equipos pueden comenzar a organizar mejor sus datos con el objetivo de que sea más fácil para las personas de los equipos encontrar y usar lo que necesitan.

Establezca políticas de gobernanza de datos

La introducción de una política de gobernanza de datos puede ayudar a mejorar el desafío a largo plazo. Esta política debe cubrir cómo se revisan todos los datos que ingresan y ofrecer pautas claras sobre lo que debe conservar (y organizar para mantener una gestión de datos clara), archivar o destruir. Una parte importante de esta política es ser estricto sobre qué datos deben destruirse y cuándo. Hacer cumplir la gobernanza de datos y revisar periódicamente las prácticas puede ayudar a minimizar la cantidad de datos oscuros que nunca se emplearán.

Emplee herramientas de ML e IA para analizar datos

Para ayudar a descubrir los datos oscuros, el machine learning (ML) y la inteligencia artificial (IA) pueden hacer el trabajo pesado de categorizar los datos oscuros mediante la realización de análisis de datos que pueden contener insights valiosos. Además, la automatización de ML puede ayudar con las regulaciones de cumplimiento de privacidad de datos mediante la redacción automática de información confidencial de los datos almacenados.

Productos relacionados

Productos relacionados

IBM Databand

IBM Databand es un software de observabilidad para pipelines y almacenes de datos, que recopila metadatos de forma automática para crear líneas de base históricas, detectar anomalías y clasificar las alertas para remediar los problemas de calidad de los datos.

Explore Databand

IBM DataStage

Al admitir los patrones ETL y ELT, IBM® DataStage ofrece una integración de datos flexible y casi en tiempo real tanto on premises como en la nube.

Conozca DataStage

IBM Knowledge Catalog

IBM® Knowledge Catalog, un catálogo de datos inteligente en la era de la IA, le permite acceder, curar, categorizar y compartir datos, activos de conocimiento y sus relaciones, independientemente de dónde residan.

Conozca Knowledge Catalog
Recursos

Recursos

¿Qué es la ciencia de datos?

Descubra qué es la ciencia de datos y cómo puede desbloquear insights empresariales y acelerar la transformación digital, al tiempo que permite la toma de decisiones basada en datos.

¿Qué es la inteligencia artificial (IA)?

Conozca qué es la IA, sus diferentes tipos, la historia de la IA y por qué la IA generativa aceleró significativamente la adopción de la IA en las compañías.

Seis pilares de la calidad de los datos y cómo mejorar sus datos

Descubra por qué los datos de alta calidad son esenciales para tomar decisiones bien informadas, realizar análisis precisos y desarrollar estrategias eficaces.

¿Qué hacer con los datos oscuros?

Todas las compañías acumulan datos oscuros. Descubra cómo las herramientas de gestión pueden convertirlos de un pasivo costoso a un recurso valioso lleno de oportunidades sin explotar.

Dé el siguiente paso

Implemente hoy mismo una observabilidad de los datos proactiva con IBM Databand, para detectar cualquier problema que afecte al estado de los datos antes de que lo hagan sus usuarios.

Explore Databand Reserve una demostración en vivo
Notas de pie de página

1 Glosario de Gartner (enlace externo a ibm.com), Gartner

2 The State of Dark Data (enlace externo a ibm.com), Splunk, 2019

3 Dark Data: Discovery, Uses & Benefits of Hidden Data (enlace externo a ibm.com), Splunk, 3 de agosto de 2023