Los datos no estructurados son información que no tiene un formato predefinido. Los conjuntos de datos no estructurados son enormes (a menudo terabytes o petabytes de datos) y contienen el 90 % de todos los datos generados por la empresa1.
La proliferación de datos no estructurados viene impulsada por la diversidad y amplitud de sus fuentes, que incluyen documentos de texto, redes sociales, archivos de imagen y audio, mensajes instantáneos y dispositivos inteligentes. Casi todos los datos nuevos que se generan hoy en día son datos no estructurados: cada mensaje enviado, cada foto subida o cada sensor activado se suma al volumen creciente.
A diferencia de los datos estructurados (que tienen un modelo de datos predefinido), los datos no estructurados no se ajustan fácilmente a los esquemas fijos de las bases de datos convencionales. En cambio, los datos no estructurados a menudo se almacenan en sistemas de archivos, bases de datos no relacionales (o bases de datos NoSQL) o en data lakes.
La complejidad de los datos no estructurados y la estructura de datos no uniforme también requieren métodos más sofisticados de análisis de datos. Tecnologías como el machine learning (ML) y el procesamiento del lenguaje natural (PLN) se aprovechan comúnmente para extraer conocimiento de conjuntos de datos no estructurados.
En el pasado reciente, los datos no estructurados se consideraban datos oscuros. Los desafíos de los datos no estructurados (es decir, su volumen y falta de uniformidad) los hicieron inutilizables para muchos casos de uso empresariales.
Sin embargo, hoy en día, las empresas con abundantes datos no estructurados poseen un importante activo estratégico. Cuando se combinan, los datos estructurados y los datos no estructurados proporcionan una visión completa de los datos de la empresa. Y, especialmente relevante en este momento actual, los datos no estructurados también pueden ayudar a las empresas a desbloquear todo el potencial de la IA generativa (IA gen).
La mayoría de los datos no estructurados son textuales: mensajes de correo electrónico, documentos de Word, archivos PDF, blogs y publicaciones en redes sociales. Los datos no estructurados también abarcan transcripciones de llamadas y archivos de texto de mensajes, como los de Microsoft Teams o Slack.
Sin embargo, los datos no estructurados también pueden ser no textuales. Algunos ejemplos comunes de datos no estructurados incluyen archivos de imagen (como JPEG, GIF y PNG), archivos multimedia, archivos de vídeo, actividad móvil y datos de sensores de dispositivos del Internet de las cosas (IoT).
Los datos a menudo se clasifican como estructurados, no estructurados o semiestructurados según su formato y reglas de esquema. Como su nombre indica, los datos semiestructurados comparten atributos tanto de los datos estructurados como de los datos no estructurados. He aquí una breve descripción de cada tipo de datos:
Datos estructurados
Datos no estructurados
Datos semiestructurados
Los datos no estructurados representan la mayor parte de todos los datos generados en una empresa. Es diverso, flexible y está repleto de conocimiento, algunos de los cuales pueden no existir en conjuntos de datos estructurados. Aunque los datos estructurados siguen siendo inmensamente valiosos, la mayoría de las empresas hoy en día poseen grandes reservas de datos no estructurados que permanecen en gran medida sin explotar.
Los datos no estructurados también son fundamentales para la IA moderna. Los datos no estructurados (en forma de datos privados, públicos e internos) se pueden utilizar para entrenar modelos de IA y mejorar su rendimiento.
Con las herramientas adecuadas, los datos no estructurados pueden proporcionar una amplia variedad de casos de uso, como:
La IA generativa se basa en modelos de deep learning que identifican y codifican los patrones y las relaciones en enormes cantidades de datos. Los datos no estructurados, generalmente de Internet, son muy adecuados para proporcionar el volumen extremadamente alto de datos enriquecidos y sin etiquetar necesarios para el entrenamiento.
RAG es una arquitectura para optimizar el rendimiento de un modelo de IA generativa dándole acceso a bases de conocimiento externas adicionales, como los datos no estructurados de una organización. Este proceso ayuda a adaptar los modelos a casos de uso específicos del dominio para que puedan proporcionar mejores respuestas.
El análisis de sentimientos analiza grandes volúmenes de texto para determinar si expresa un sentimiento positivo, negativo o neutral. Como herramienta para comprender el comportamiento del cliente, el análisis de sentimientos utiliza los vastos tesoros de datos textuales no estructurados generados por los clientes a través de los canales digitales.
Las empresas emplean análisis predictivo para prever resultados futuros e identificar riesgos y oportunidades utilizando datos históricos. Por ejemplo, una organización de estado podría extraer registros de estado (datos de texto no estructurados) para saber cómo se ha diagnosticado y tratado una enfermedad específica, y crear un modelo predictivo basado en los hallazgos.
Un chatbot de nivel empresarial puede analizar y extraer conocimientos de los datos de texto no estructurados en sus conversaciones con clientes o empleados. Normalmente, el análisis se realiza utilizando técnicas como el procesamiento del lenguaje natural (PLN) y el machine learning. Los conocimientos de los datos de texto analizados pueden ayudar a informar el comportamiento de los clientes y a mejorar el rendimiento del chatbot.
Los casos de uso relacionados con la inteligencia artificial para datos no estructurados son cada vez más un punto focal para las empresas que adoptan la innovación en IA. Consideremos la IA generativa, la tecnología que hay detrás de ChatGPT y otras aplicaciones de IA que se han vuelto virales. Comienza con un modelo fundacional, normalmente un modelo de lenguaje de gran tamaño (LLM).
La creación de un modelo fundacional implica entrenar un algoritmo de deep learning en enormes volúmenes de datos no estructurados, normalmente de Internet. Estos datos no estructurados son ricos y diversos, y enseñan a los modelos de IA el contexto y los matices.
Sin embargo, los datos de entrenamiento no estructurados pueden ser bastante generales, en lugar de específicos de un dominio u organización, y potencialmente obsoletos. El modelo final podría tener dificultades para responder a las instrucciones que solicitan respuestas específicas del dominio.
Para dirigirse a tales desafíos, las organizaciones pueden adaptar un modelo preentrenado a un caso de uso o tarea específica de varias maneras. Un método, el fine-tuning, adapta un modelo base entrenándolo en un conjunto de datos más pequeño y específico de la tarea. Requiere datos estructurados y de alta calidad, a menudo datos propietarios o conocimientos especializados y específicos del dominio.
Sin embargo, un método diferente, la generación aumentada por recuperación (RAG), puede incorporar datos no estructurados. Mientras que los LLM suelen obtener información de sus datos de entrenamiento, la RAG añade un componente de recuperación de información al flujo de trabajo de IA, recopilando datos relevantes y alimentándolos al modelo para mejorar la calidad de la respuesta. Estos datos pueden incluir conjuntos de datos internos no estructurados.
En comparación con el fine-tuning, la RAG garantiza resultados más oportunos y precisos, ya que recupera constantemente la información más reciente durante la generación de respuestas. Puede ayudar a transformar las iniciativas de IA de congeladas en el tiempo y genéricas a personalizadas, relevantes e impactantes.
Al igual que los datos estructurados, los datos no estructurados también requieren un gobierno y una gestión de datos adecuados antes de ser utilizados para la IA. Debe clasificarse, evaluarse la calidad de los datos, filtrarse para detectar PII y deduplicarse.
Con las herramientas adecuadas, e incluso la ayuda de la IA, las empresas pueden transformar sus datos no estructurados y hacerlos utilizables. Saber cómo poner orden de manera efectiva en el caos de datos es ahora un diferenciador competitivo y un catalizador para la IA generativa empresarial.
Los datos no estructurados suelen almacenarse en su formato nativo, lo que amplía las opciones de almacenamiento. Algunos entornos de almacenamiento de datos comunes para datos no estructurados incluyen:
Almacenamiento de objetos (o almacenamiento basado en objetos) almacena datos como objetos, un repositorio simple y autónomo que incluye los datos, los metadatos y un número de identificación único. Esta arquitectura es ideal para almacenar, archivar, realizar copias de seguridad y administrar grandes volúmenes de datos no estructurados. El almacenamiento de objetos basado en la nube se utiliza a menudo para optimizar los costos de almacenamiento y el uso de datos de las cargas de trabajo de IA.
Los data lakes son entornos de almacenamiento de datos diseñados para gestionar grandes cantidades de datos sin procesar en cualquier formato, concretamente, el aluvión de big data generados por las aplicaciones y servicios conectados a Internet. Utilizan el cloud computing para hacer que el almacenamiento de datos sea más escalable y asequible. Y, por lo general, los data lakes utilizan el almacenamiento de objetos basado en la nube, como Azure Blob Storage, Google Cloud Storage o IBM Cloud Object Storage.
Los lakehouses de datos se consideran la próxima evolución de la gestión de datos, ya que combinan las mejores partes de los data lakes y los almacenes de datos. Ofrecen almacenamiento rápido y de bajo coste con la flexibilidad necesaria para soportar el análisis de datos y las cargas de trabajo de IA/ML. Los lakehouses de datos también admiten la ingesta de datos en tiempo real ingesta de datos, que es crítico para las aplicaciones de IA utilizadas para respaldar la toma de decisiones en tiempo real.
El lenguaje de consulta estructurado (SQL) es un lenguaje de programación estandarizado y específico de un dominio que se utiliza para almacenar, manipular y recuperar datos. Una base de datos NoSQL, o no SQL, está diseñada para almacenar datos fuera de las estructuras tradicionales de bases de datos SQL, sin un esquema. Las bases de datos NoSQL proporcionan la velocidad y la escalabilidad necesarias para gestionar grandes conjuntos de datos no estructurados. Los ejemplos incluyen MongoDB, Redis y HBase.
Una vez que se almacenan los datos no estructurados, a menudo es necesario procesarlos para que se utilicen eficazmente en casos de uso posteriores, como la inteligencia empresarial o el análisis de datos no estructurados.
Algunas organizaciones utilizan marcos de código abierto para procesar grandes conjuntos de datos no estructurados. Por ejemplo, Apache Hadoop se suele integrar en arquitecturas de data lake para permitir el procesamiento por lotes de datos no estructurados y semiestructurados (como audio en tiempo real y opiniones en las redes sociales). Apache Spark es otro marco de código abierto para el procesamiento de datos. Sin embargo, Spark utiliza procesamiento en memoria y es increíblemente rápido, por lo tanto es más adecuado para aplicaciones de machine learning e IA.
También existen modernas plataformas de integración de datos diseñadas específicamente para manejar datos estructurados y datos no estructurados. Estas herramientas de integración polivalentes consumen automáticamente los datos sin procesar, los organizan y, a continuación, mover los datos procesados a las bases de datos de destino. Estas características reducen significativamente el laborioso trabajo manual de los equipos de ciencia de datos encargados de preparar datos no estructurados para la IA.
Existen varias herramientas y tecnologías que las organizaciones pueden utilizar para obtener información de sus datos no estructurados.
Las herramientas de análisis de IA se basan en la capacidad de la inteligencia artificial para procesar rápidamente grandes volúmenes de datos, lo que es clave para las organizaciones que desean encontrar información valiosa en conjuntos de datos masivos no estructurados. Con el machine learning y el procesamiento del lenguaje natural (PLN), los algoritmos de IA pueden cribar datos no estructurados para encontrar patrones y hacer predicciones o recomendaciones en tiempo real. Estos modelos analíticos también pueden integrarse en paneles de control o API existentes para automatizar la toma de decisiones.
La minería de textos utiliza Naïve Bayes, máquinas vectoriales de soporte (SVM) y otros algoritmos de deep learning para ayudar a las organizaciones a explorar y descubrir las relaciones ocultas dentro de los datos no estructurados. Se implementan una variedad de técnicas para la minería de texto, como la recuperación de información, la extracción de información, la minería de datos y el procesamiento del lenguaje natural.
El PLN utiliza el machine learning para ayudar a los ordenadores a comprender y comunicarse con el lenguaje humano. En el contexto del análisis de datos no estructurados, el PLN permite extraer conocimientos de datos no estructurados, como reseñas de clientes y publicaciones en redes sociales. Se puede utilizar para mejorar la minería de textos ofreciendo procesamiento y comprensión avanzados del lenguaje, como el análisis de sentimientos.
Utilice las soluciones de bases de datos de IBM para satisfacer las distintas necesidades de carga de trabajo en la nube híbrida.
Explore IBM Db2, una base de datos relacional que ofrece alto rendimiento, escalabilidad y fiabilidad para almacenar y gestionar datos estructurados. Está disponible como SaaS en IBM Cloud o para autoalojamiento.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.
1 “Untapped value: What every executive needs to know about unstructured data". IDC. Agosto de 2023.