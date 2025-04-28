Los datos no estructurados son información que no tiene un formato predefinido. Los conjuntos de datos no estructurados son enormes (a menudo terabytes o petabytes de datos) y contienen el 90 % de todos los datos generados por la empresa1.

La proliferación de datos no estructurados viene impulsada por la diversidad y amplitud de sus fuentes, que incluyen documentos de texto, redes sociales, archivos de imagen y audio, mensajes instantáneos y dispositivos inteligentes. Casi todos los datos nuevos que se generan hoy en día son datos no estructurados: cada mensaje enviado, cada foto subida o cada sensor activado se suma al volumen creciente.

A diferencia de los datos estructurados (que tienen un modelo de datos predefinido), los datos no estructurados no se ajustan fácilmente a los esquemas fijos de las bases de datos convencionales. En cambio, los datos no estructurados a menudo se almacenan en sistemas de archivos, bases de datos no relacionales (o bases de datos NoSQL) o en data lakes.

La complejidad de los datos no estructurados y la estructura de datos no uniforme también requieren métodos más sofisticados de análisis de datos. Tecnologías como el machine learning (ML) y el procesamiento del lenguaje natural (PLN) se aprovechan comúnmente para extraer conocimiento de conjuntos de datos no estructurados.

En el pasado reciente, los datos no estructurados se consideraban datos oscuros. Los desafíos de los datos no estructurados (es decir, su volumen y falta de uniformidad) los hicieron inutilizables para muchos casos de uso empresariales.

Sin embargo, hoy en día, las empresas con abundantes datos no estructurados poseen un importante activo estratégico. Cuando se combinan, los datos estructurados y los datos no estructurados proporcionan una visión completa de los datos de la empresa. Y, especialmente relevante en este momento actual, los datos no estructurados también pueden ayudar a las empresas a desbloquear todo el potencial de la IA generativa (IA gen).