¿Qué son los datos oscuros?

¿Qué son los datos oscuros?

Los datos oscuros son aquella información que las organizaciones acumulan, pero que a menudo nunca utilizan con fines de análisis ni para la toma de decisiones.

Hoy en día, la mayoría de las empresas almacenan enormes cantidades de datos oscuros. En una encuesta de investigación global realizada por Splunk a más de 1300 responsables de la toma de decisiones en el ámbito empresarial y de TI, el 60 % de los encuestados señalaron que la mitad o más de los datos de su organización se consideran oscuros. Un tercio de los encuestados indicaron que esta proporción era del 75 % o superior.1.

Los datos oscuros se acumulan porque las organizaciones han adoptado la idea de que resulta valioso almacenar toda la información que puedan capturar en data lakes de gran tamaño. Esto se debe en parte a la llegada de soluciones de almacenamiento económicas, lo que ha facilitado justificar el almacenamiento de tantos datos, por si algún día resultaran valiosos.

Al final, la mayoría de las empresas nunca utilizan ni siquiera una fracción de lo que almacenan porque el repositorio de almacenamiento no documenta adecuadamente las etiquetas de metadatos, algunos datos están en un formato que las herramientas integradas no pueden leer o los datos no se pueden recuperar mediante una consulta.

Los datos oscuros son un factor limitante importante para producir un buen análisis de datos, ya que la calidad de cualquier análisis de datos depende del cuerpo de información accesible a las herramientas de análisis, tanto con prontitud como con todo detalle.

Otros problemas con los datos oscuros son que generan responsabilidades, importantes costes de almacenamiento y pérdida de oportunidades debido a que los equipos no se dan cuenta de los datos que pueden tener a su disposición.

Insignia de los 50 mejores productos de gestión de TI

IBM watsonx.governance

Reconocido como uno de los mejores productos de gestión de TI en los premios G2 Best Software Awards 2026

Por qué los datos se vuelven oscuros

Existen numerosas causas para que los datos de una organización se vuelvan oscuros, entre ellas:

  • Falta de conciencia: los datos obtenidos durante las operaciones comerciales normales suelen quedar oscuros porque las organizaciones o bien desconocen su existencia, o bien no comprenden su valor o relevancia.

  • Datos atrapados en silos: cuando diferentes departamentos dentro de una organización recopilan y almacenan datos de forma independiente, esto puede conducir a la fragmentación y el aislamiento de los datos. Es posible que estos silos de datos no sean accesibles o visibles para otros equipos, que podrían encontrar valiosos dichos datos.

  • Falta de gobierno de datos: sin un marco robusto de gobierno de datos , las organizaciones pueden tener dificultades para gestionar y realizar un seguimiento eficaz de los datos en todo su ecosistema. Esto provoca que los datos se desorganicen, se pierdan y se vuelvan inutilizables.

  • Sistemas heredados: a medida que las organizaciones actualizan su software y hardware, los sistemas más antiguos pueden quedar en desuso o perder relevancia. Los datos almacenados en estos sistemas heredados quedan oscuros si no pueden integrarse con las herramientas de análisis modernas de la organización.

  • Integración de datos incompleta: los procesos de integración de datos incompletos o ineficaces pueden dar lugar a lagunas e incoherencias en los datos. Esto puede dejar ciertos conjuntos de datos inaccesibles o no estar correctamente enlazados a otras fuentes de datos.

  • Prioridades empresariales cambiantes: a medida que evolucionan las prioridades empresariales, ciertos conjuntos de datos pueden perder relevancia o dejar de ser el centro de atención. Los datos que antes se utilizaban activamente pueden quedar en el olvido a medida que cambian los objetivos de la organización.

  • Recursos y alfabetización limitados: las organizaciones con recursos limitados pueden dar prioridad a la recopilación y el almacenamiento de datos frente al análisis de datos. Asimismo, una alfabetización en datos insuficiente entre los empleados puede obstaculizar el descubrimiento y la utilización de datos valiosos.

  • Problemas de calidad de los datos: una mala calidad de los datos, como datos inexactos o incompletos, puede llevar a que se descarten o se ignoren. Los datos que se perciben como poco fiables tienen menos probabilidades de ser utilizados, lo que los convierte, en la práctica, en datos oscuros.

  • Fines de cumplimiento normativo: muchas normas de cumplimiento y regulación obligan a las organizaciones a seguir estrictas regulaciones sobre el tiempo que deben almacenar los datos sensibles. A menudo terminan almacenándolos mucho más allá del período obligatorio porque no logran hacer un seguimiento de qué datos sensibles deben destruirse.

  • Datos redundantes, obsoletos y triviales (ROT):  los ROT se crean cuando los empleados guardan varias copias de la misma información, información obsoleta e información superflua que no ayuda a la organización a cumplir sus objetivos.

Tipos de datos oscuros

En lo que respecta a su descubrimiento para iniciativas de análisis de datos oportunas y completas, los datos oscuros pueden ser datos estructurados, datos no estructurados o datos semiestructurados.

Los datos estructurados son información que se introduce en campos claramente definidos de hojas de cálculo o bases de datos antes de su almacenamiento.

Los archivos de registro de servidores, los datos de sensores del Internet de las cosas (IoT) , las bases de datos de gestión de la relación con el cliente (CRM) y los sistemas de planificación de recursos empresariales (ERP) son ejemplos de datos oscuros generados a partir de fuentes de datos estructurados.

Aunque la mayoría de los datos sensibles (como extractos bancarios electrónicos, historiales médicos y datos de clientes cifrados) suelen presentarse en formato estructurado, resulta difícil consultarlos y clasificarlos debido a cuestiones de permisos.

A diferencia de los datos estructurados, los datos no estructurados incluyen información que no puede organizarse en bases de datos u hojas de cálculo para su análisis sin conversión, codificación, clasificación por niveles y estructuración.

Las correspondencias por correo electrónico, los archivos PDF, los documentos de texto, las publicaciones en redes sociales, las grabaciones de los call centers, los registros de chat y las imágenes de videovigilancia son ejemplos de datos oscuros creados a partir de fuentes de datos no estructurados.

Los datos semiestructurados son datos no estructurados que contienen cierta información en campos de datos definidos. Aunque no tiene la misma facilidad de detección de datos oscuros que los datos estructurados, puede ser buscado o catalogado.

Los ejemplos incluyen código HTML, facturas, gráficos, tablas y documentos XML.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Los costes de los datos oscuros

Los costes de almacenamiento de los datos oscuros pueden ser significativos y superar con creces el coste financiero directo del almacenamiento de datos oscuros. Los costes directos e indirectos incluyen:

Costes de almacenamiento de datos

El almacenamiento de datos, incluso si no se utilizan de forma activa, requiere una infraestructura de almacenamiento física o digital. Esto puede incluir servidores, centros de datos, soluciones de almacenamiento en la nube y sistemas de copia de seguridad. Cuantos más datos haya en su ecosistema, mayor será la capacidad de almacenamiento de datos que necesite, lo que conlleva un aumento de los costes de infraestructura.

Costes de responsabilidad

En los últimos años, los gobiernos han introducido una serie de leyes de privacidad globales que se aplican a todos los datos, incluso a los que no se utilizan en los repositorios de análisis.

Costes de oportunidad

Muchas empresas pierden oportunidades al  o utilizar estos datos. Si bien es recomendable deshacerse de los datos oscuros que no son utilizables (debido a los riesgos y los costes), merece la pena analizar primero qué datos están disponibles para determinar cuáles podrían ser útiles.

Costes de ineficiencia

La gestión de grandes volúmenes de datos, incluidos los datos oscuros, puede ralentizar los procesos de recuperación y análisis de datos. Los empleados podrían dedicar más tiempo a buscar información relevante, lo que reduciría la productividad y aumentaría los costes laborales.

Costes de riesgos

Los datos oscuros pueden plantear riesgos en términos de ciberseguridad insuficiente, vulneraciones de datos, violaciones del cumplimiento y pérdida de datos. Estos riesgos pueden provocar daños a la reputación y consecuencias financieras.

Problemas de calidad de los datos y datos oscuros

A veces se crean datos oscuros debido a problemas de calidad de los datos.

Por ejemplo, se genera automáticamente una transcripción de una grabación de audio, pero la IA que creó la transcripción comete algunos errores. Sin embargo, alguien guarda la transcripción, pensando que la resolverá en algún momento, lo que no hace.

Cuando las organizaciones intentan limpiar datos de mala calidad, a veces pasan por alto la causa del problema. Sin la comprensión adecuada, es imposible garantizar que el problema de la calidad de los datos no seguirá produciéndose en el futuro.

Esta situación pasa entonces a ser cíclica, porque en lugar de simplemente emplear políticas de eliminación de datos oscuros que permanecen ahí sin usarse nunca, las organizaciones dejan que sigan en pie y contribuyen a un creciente problema de calidad de los datos.

Afortunadamente, hay tres pasos para la gestión de la calidad de los datos que las organizaciones pueden tomar para ayudar a aliviar este problema:

  1. Analizar e identificar la situación "tal cual": para priorizar los problemas, primero identifique todos los problemas actuales, los estándares de datos existentes y el impacto en el negocio.

  2. Evitar que se repitan los datos erróneos: a continuación, evalúe la causa raíz de cada problema y aplique recursos para abordar el problema de manera sostenible para que no vuelva a ocurrir.

  3. Comuníquese a menudo en el camino: comparta lo que está sucediendo, lo que está haciendo el equipo, el impacto de ese trabajo y cómo esos esfuerzos se conectan con los objetivos empresariales.

Cómo arrojar luz sobre los datos oscuros

A pesar de todos los costes y problemas de calidad de los datos oscuros, hay ventajas. Como dice Splunk, “los datos oscuros pueden ser uno de los mayores recursos sin explotar de una organización”2.

Al adoptar un enfoque proactivo para gestionar los datos oscuros, las organizaciones pueden arrojar luz sobre los mismos. Esto no solo reduce las responsabilidades y los costes, sino que también proporciona a los equipos los recursos que necesitan para descubrir conocimientos a partir de datos ocultos.

Al manejar datos oscuros y utilizarlos potencialmente para tomar mejores decisiones basado en datos, hay varias buenas prácticas a seguir:

Rompa los silos

Los datos oscuros a menudo surgen debido a silos dentro de la organización. Un equipo crea datos que podrían ser útiles para otro, pero ese otro equipo no lo sabe. La ruptura de esos silos hace que esos datos estén disponibles para el equipo que los necesita. Pasan de no hacer nada a proporcionar un valor inmenso.

Mejore la gestión de datos

Es importante comprender qué datos existen dentro de la organización. Este esfuerzo comienza clasificando todos los datos de la organización para obtener una visión completa y precisa. A partir de ahí, los equipos pueden empezar a organizar mejor sus datos con el objetivo de facilitar a las personas de los equipos la búsqueda y el uso de lo que necesitan.

Establezca políticas de gobierno de datos

La introducción de una política de gobierno de datos puede ayudar a mejorar el reto a largo plazo. Esta política debe cubrir cómo se revisan todos los datos entrantes y ofrecer pautas claras sobre lo que debe conservarse (y organizarse para mantener una gestión de datos clara), archivarse o destruirse. Una parte importante de esta política es ser estricto sobre qué datos deben destruirse y cuándo. La aplicación del gobierno de datos y la revisión periódica de las prácticas pueden ayudar a minimizar la cantidad de datos oscuros que no se utilizarán.

Utilice herramientas de ML (machine learning) e IA para analizar datos

Para ayudar a descubrir los datos oscuros, el machine learning (ML) y la inteligencia artificial (IA) pueden hacer el trabajo pesado de categorizar los datos oscuros mediante el análisis de datos que pueden contener perspectivas valiosas. Además, la automatización del ML puede ayudar con las regulaciones de cumplimiento de protección de datos al redactar automáticamente la información confidencial de los datos almacenados.

Techsplainers | Pódcast

Escuche: “¿Qué son los datos oscuros?”

Siga a Techsplainers en: Spotify y Apple Podcasts

Representación en 3D de una espiral de varios iconos alineados, como una cámara, un potenciómetro de volumen y un portapapeles
Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM watsonx.data

Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data
Notas a pie de página

The State of Dark Data. Splunk. 2019.

Dark Data: Discovery, Uses & Benefits of Hidden Data . Splunk. 03 de agosto de 2023.