En lo que respecta a su descubrimiento para iniciativas de análisis de datos oportunas y completas, los datos oscuros pueden ser datos estructurados, datos no estructurados o datos semiestructurados.
Los datos estructurados son información que se introduce en campos claramente definidos de hojas de cálculo o bases de datos antes de su almacenamiento.
Los archivos de registro de servidores, los datos de sensores del Internet de las cosas (IoT) , las bases de datos de gestión de la relación con el cliente (CRM) y los sistemas de planificación de recursos empresariales (ERP) son ejemplos de datos oscuros generados a partir de fuentes de datos estructurados.
Aunque la mayoría de los datos sensibles (como extractos bancarios electrónicos, historiales médicos y datos de clientes cifrados) suelen presentarse en formato estructurado, resulta difícil consultarlos y clasificarlos debido a cuestiones de permisos.
A diferencia de los datos estructurados, los datos no estructurados incluyen información que no puede organizarse en bases de datos u hojas de cálculo para su análisis sin conversión, codificación, clasificación por niveles y estructuración.
Las correspondencias por correo electrónico, los archivos PDF, los documentos de texto, las publicaciones en redes sociales, las grabaciones de los call centers, los registros de chat y las imágenes de videovigilancia son ejemplos de datos oscuros creados a partir de fuentes de datos no estructurados.
Los datos semiestructurados son datos no estructurados que contienen cierta información en campos de datos definidos. Aunque no tiene la misma facilidad de detección de datos oscuros que los datos estructurados, puede ser buscado o catalogado.
Los ejemplos incluyen código HTML, facturas, gráficos, tablas y documentos XML.