En términos de su detectabilidad para iniciativas de analytics de datos oportunas y completas, los datos oscuros pueden ser datos estructurados, datos no estructurados o datos semiestructurados.
Los datos estructurados son información que se agrega a campos claramente definidos de una hoja de cálculo o una base de datos antes de almacenarlos.
Los archivos de registro del servidor, los datos de sensores de Internet de las cosas (IoT), las bases de datos de gestión de relaciones con los clientes y los sistemas de planificación de recursos empresariales (ERP) son ejemplos de datos oscuros creados a partir de fuentes de datos estructuradas.
Aunque la mayoría de las formas de datos sensibles, como los estados de cuenta bancarios electrónicos, los registros médicos y los datos cifrados de los clientes, suelen estar en forma estructurada, es difícil verlos y categorizarlos debido a problemas de permisos.
A diferencia de los datos estructurados, los datos no estructurados incluyen información que no se puede organizar en bases de datos o hojas de cálculo para su análisis sin conversión, codificación, organización en niveles y estructuración.
Las correspondencias por correo electrónico, los archivos PDF, los documentos de texto, las publicaciones en redes sociales, las grabaciones de centros de atención telefónica, los registros de chat y las imágenes de video de vigilancia son ejemplos de datos oscuros creados a partir de fuentes de datos no estructuradas.
Los datos semiestructurados son datos no estructurados que contienen cierta información en campos de datos definidos. Aunque no tiene la misma facilidad de descubrimiento de datos oscuros que los datos estructurados, se pueden buscar o catalogar.
Algunos ejemplos son el código HTML, las facturas, los gráficos, las tablas y los documentos XML.