Según Gartner, los datos oscuros se refieren a los activos de información que las organizaciones recopilan, procesan y almacenan durante las actividades comerciales habituales, pero que generalmente no se utilizan para otros fines, como análisis, relaciones comerciales y monetización directa1.
Hoy en día, la mayoría de las empresas almacenan grandes cantidades de datos oscuros. En la encuesta de investigación global de Splunk a más de 1300 responsables de la toma de decisiones empresariales y de TI, el 60 por ciento de los encuestados informaron que la mitad o más de los datos de su organización se consideran oscuros. Un tercio de los encuestados informó que esta cantidad era del 75 por ciento o más.2
Los datos oscuros se acumulan porque las organizaciones han adoptado la idea de que es valioso almacenar toda la información que puedan capturar en big data lakes. Esto se debe en parte a la llegada del almacenamiento económico, que ha facilitado la justificación del almacenamiento de tantos datos, en caso de que algún día se vuelvan valiosos.
Al final, la mayoría de las empresas nunca utilizan ni siquiera una fracción de lo que almacenan porque el depósito de almacenamiento no documenta adecuadamente las etiquetas de metadatos, algunos de los datos están en un formato que las herramientas integradas no pueden leer o los datos no se pueden recuperar mediante una consulta.
Los datos oscuros son un factor limitante importante para producir un buen análisis de datos, ya que la calidad de cualquier análisis de datos depende del cuerpo de información accesible a las herramientas de análisis, tanto con prontitud como con todo detalle.
Otros problemas con los datos oscuros son que generan responsabilidades, importantes costes de almacenamiento y pérdida de oportunidades debido a que los equipos no se dan cuenta de los datos que pueden tener a su disposición.
Existen numerosas causas para que los datos de una organización se vuelvan oscuros, entre ellas:
En términos de su detectabilidad para iniciativas de análisis de datos oportunas y completas, los datos oscuros pueden ser datos estructurados, datos no estructurados o datos semiestructurados.
Los datos estructurados son información que se añade a campos de hojas de cálculo o bases de datos claramente definidos antes de ser almacenados.
Los archivos de registro del servidor, los datos de sensores del Internet de las cosas (IoT) , las bases de datos de gestión de la relación con el cliente (CRM) y los sistemas de planificación de recursos empresariales (ERP) son ejemplos de datos oscuros creados a partir de fuentes de datos estructurados.
Aunque la mayoría de los datos confidenciales, como los extractos bancarios electrónicos, los historiales médicos y los datos cifrados de los clientes, suelen estar estructurados, es difícil verlos y categorizarlos debido a problemas de permisos.
A diferencia de los datos estructurados, los datos no estructurados incluyen información que no se puede organizar en bases de datos u hojas de cálculo para su análisis sin conversión, codificación, jerarquización y estructuración.
Las correspondencias por correo electrónico, los archivos PDF, los documentos de texto, las publicaciones en redes sociales, las grabaciones de los call centers, los registros de chat y las imágenes de videovigilancia son ejemplos de datos oscuros creados a partir de fuentes de datos no estructurados.
Los datos semiestructurados son datos no estructurados que contienen información en campos de datos definidos. Aunque no tienen la misma facilidad de detección de datos oscuros que los datos estructurados, se pueden buscar o catalogar.
Los ejemplos incluyen código HTML, facturas, gráficos, tablas y documentos XML.
Los costes de almacenamiento de los datos oscuros pueden ser significativos y superar con creces el coste financiero directo del almacenamiento de datos oscuros. Los costes directos e indirectos incluyen:
El almacenamiento de datos, incluso si no se utilizan activamente, requiere una infraestructura de almacenamiento física o digital. Esto puede incluir servidores, centros de datos, soluciones de almacenamiento en la nube y sistemas de copia de seguridad. Cuantos más datos haya en su ecosistema, más capacidad de almacenamiento de datos necesitará, lo que se traduce en un aumento de los costes de infraestructura.
En los últimos años, los gobiernos han introducido una serie de leyes de privacidad globales que se aplican a todos los datos, incluso a los que no se utilizan en los repositorios de análisis.
Muchas empresas pierden oportunidades por no utilizar estos datos. Si bien es bueno deshacerse de los datos oscuros que, de hecho, no son utilizables (por los riesgos y los costes), vale la pena analizar primero los datos disponibles para determinar cuáles podrían utilizarse.
La gestión de grandes volúmenes de datos, incluidos los datos oscuros, puede ralentizar los procesos de recuperación y análisis de datos. Los empleados pueden dedicar más tiempo a buscar información relevante, lo que reduce la productividad y aumenta los costes laborales.
Los datos oscuros pueden plantear riesgos en términos de ciberseguridad insuficiente, vulneraciones de datos, violaciones del cumplimiento y pérdida de datos. Estos riesgos pueden provocar daños a la reputación y consecuencias financieras.
A veces se crean datos oscuros debido a problemas de calidad de los datos.
Por ejemplo, se genera automáticamente una transcripción de una grabación de audio, pero la IA que creó la transcripción comete algunos errores. Sin embargo, alguien guarda la transcripción, pensando que la arreglará en algún momento, lo que nunca hace.
Cuando las organizaciones intentan limpiar datos de mala calidad, a veces pasan por alto la causa del problema. Sin la comprensión adecuada, es imposible garantizar que el problema de la calidad de los datos no seguirá produciéndose en el futuro.
Esta situación pasa entonces a ser cíclica, porque en lugar de simplemente emplear políticas de eliminación de datos oscuros que permanecen ahí sin usarse nunca, las organizaciones dejan que sigan en pie y contribuyen a un creciente problema de calidad de los datos.
Afortunadamente, hay tres pasos para la gestión de la calidad de los datos que las organizaciones pueden tomar para ayudar a aliviar este problema:
A pesar de todos los costes y problemas de calidad de los datos oscuros, hay ventajas. Como dice Splunk, "los datos oscuros pueden ser uno de los mayores recursos sin explotar de una organización"3.
Al adoptar un enfoque proactivo para gestionar los datos oscuros, las organizaciones pueden arrojar luz sobre los mismos. Esto no solo reduce las responsabilidades y los costes, sino que también proporciona a los equipos los recursos que necesitan para descubrir conocimientos a partir de datos ocultos.
Cuando se trata de manejar datos oscuros y potencialmente usarlos para tomar mejores decisiones basadas en datos, hay varias buenas prácticas a seguir:
Los datos oscuros a menudo surgen debido a silos dentro de la organización. Un equipo crea datos que podrían ser útiles para otro, pero ese otro equipo no lo sabe. La ruptura de esos silos hace que esos datos estén disponibles para el equipo que los necesita. Pasan de no hacer nada a proporcionar un valor inmenso.
Es importante comprender qué datos existen dentro de la organización. Este esfuerzo comienza clasificando todos los datos dentro para obtener una visión completa y precisa. A partir de ahí, los equipos pueden empezar a organizar mejor sus datos con el objetivo de facilitar a las personas de los equipos la búsqueda y el uso de lo que necesitan.
La introducción de una política de gobierno de datos puede ayudar a mejorar el reto a largo plazo. Esta política debe cubrir cómo se revisan todos los datos entrantes y ofrecer pautas claras sobre lo que debe conservarse (y organizarse para mantener una gestión de datos clara), archivarse o destruirse. Una parte importante de esta política es ser estricto sobre qué datos deben destruirse y cuándo. La aplicación del gobierno de datos y la revisión periódica de las prácticas pueden ayudar a minimizar la cantidad de datos oscuros que nunca se utilizarán.
Para ayudar a descubrir datos oscuros, el machine learning (ML) y la inteligencia artificial (IA) pueden hacer el trabajo pesado de categorizar los datos oscuros mediante el análisis de datos que pueden contener conocimientos valiosos. Además, la automatización del ML puede ayudar con las regulaciones de cumplimiento de privacidad de datos al redactar automáticamente la información confidencial de los datos almacenados.
Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.
Watsonx.data le permite escalar el análisis y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y controlado.
Desbloquee el valor de los datos empresariales con IBM Consulting y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.
1 Glosario de Gartner. Gartner.
2 The State of Dark Data. Splunk. 2019.
3 Dark Data: Discovery, Uses & Benefits of Hidden Data . Splunk. 3 de agosto de 2023.