Los datos son el combustible que hace funcionar los motores de la IA. Y muchas empresas no están aprovechando al máximo el tesoro de datos no estructurados que tienen a su alcance porque no están seguras de cómo llenar el depósito.
Por eso, las empresas que disponen de herramientas para procesar datos no estructurados están captando la atención de los inversores. El mes pasado, Salesforce realizó una importante adquisición para potenciar su plataforma Agentforce, solo una de varias inversiones recientes en proveedores de gestión de datos no estructurados.
"La IA generativa ha aumentado la importancia de los datos no estructurados, es decir, los documentos, para RAG, así como el ajuste de LLM y el análisis tradicional para el aprendizaje automático, la inteligencia empresarial y la ingeniería de datos", afirma Edward Calvesbert, vicepresidente de gestión de productos de IBM watsonx y uno de los expertos en datos residentes de IBM. "La mayoría de los datos que se generan todos los días no están estructurados y presentan la mayor nueva oportunidad".
Queríamos obtener más información sobre lo que los datos no estructurados tienen almacenar para la IA. Así que nos sentamos con Calvesbert y Dave Donahue, director de estrategia de la empresa de ciencia de datos Unstructured, que cerró una ronda de inversión de 40 millones de dólares con IBM, Nvidia y Databricks en marzo, para conocer su opinión sobre la importancia de los datos no estructurados y hacia dónde se dirigen a continuación.
Edward Calvesbert, IBM: Los datos no estructurados (lenguaje, imágenes, etc.) son los "nuevos" datos de los que se alimentan los modelos fundacionales y pueden ayudar a interpretarlos, por lo que es lo que está en el centro de atención en este momento. Pero al igual que con los datos estructurados, los datos no estructurados deben gobernarse (clasificarse, evaluarse para determinar su calidad, filtrarse en busca de PII y contenido objetable y deduplicarse), por lo que las estrategias exitosas aplicarán muchas de las capacidades tradicionales de gestión de datos estructurados a los datos no estructurados
Dave Donahue, Unstructured: Los datos no estructurados no son intrínsecamente más valiosos que los datos estructurados, pero en general, las grandes organizaciones producen cuatro veces más datos no estructurados que datos estructurados. Así que la pregunta es: ¿quiere usted utilizar más sus datos, y especialmente los datos no estructurados generados por humanos, al implantar la IA? La respuesta debería ser un rotundo "Sí".
Calvesbert: "Suficientemente bueno" es un objetivo variable y depende del caso de uso. Una base de conocimientos para que RAG mejore la búsqueda semántica, las preguntas y respuestas y el resumen para los agentes de atención al cliente requiere que la base de conocimientos de documentos sea completa, precisa y actualizada. Los datos para afinar un modelo requieren un conjunto de ejemplos de pares de instrucción/respuesta curados por humanos. Los documentos procesados en tablas o bases de datos gráficas para impulsar casos de uso analíticos requieren una extracción efectiva de entidades o valores. En casi todos los casos, los datos deben clasificarse, filtrarse y gobernarse en el contexto del ciclo de vida del caso de uso.
Donahue: A nivel empresarial o de compañía, los datos “buenos” están limpios, estructurados y enriquecidos. Este pipeline de preprocesamiento debe minimizar la pérdida de información entre el contenido original y la versión preparada para LLM. Unstructured permite a las empresas transformar sus datos no estructurados en un formato estandarizado, independientemente del tipo de archivo, y enriquecerlos con metadatos adicionales. Esto permite a las organizaciones mitigar los tres desafíos clave a los que se enfrentan cuando utilizan los LLM: están congelados en el tiempo, tienden a inventar cosas y no saben nada sobre su organización específica desde el primer momento.
Calvesbert: Un importante cliente de telecomunicaciones con el que trabajamos comenzó con una base de conocimientos interna para los agentes de atención al cliente, lo que redujo el tiempo necesario para obtener una respuesta a los clientes y mejoró la precisión de esa respuesta. Se propagó orgánicamente, como la pólvora, dentro del call center, momento en el que la empresa tuvo que dar un paso atrás y empezar a trabajar en el gobierno y el rendimiento de los precios. Internamente, hemos implementado un caso de uso de automatización de marketing en el que se ingirieron las directrices y ejemplos de marca de IBM para generar nuevo contenido de marketing y seleccionarlo para lograr una calidad y un tono coherentes.
Donahue: Estamos trabajando con una empresa mundial de bienes de consumo envasados para ayudarles a desarrollar nuevas ideas de productos. Puede preguntarse: "¿Qué tiene eso que ver con los datos no estructurados?" Históricamente, los equipos de marketing y producto tardarían meses en analizar montañas de datos de ventas, información de comentarios sobre productos e información demográfica para generar nuevas ideas o conceptos que pudieran probar con los usuarios finales en esos mercados específicos. ¿Y si pudiéramos ayudar a que ese proceso pase de meses a horas? ¿Y si pudiéramos generar nuevas ideas para productos basadas en los datos que los equipos podrían probar rápidamente?
Ese es el poder de aprovechar sus datos no estructurados para crear valor empresarial. Ahora, esa empresa de bienes de consumo está aprovechando sus datos en varias de sus marcas para desarrollar y probar nuevas ideas de productos que lanzar al mercado.
Calvesbert: Todas las empresas tienen documentos (piense en lo que proporcionan a los nuevos empleados para incorporarlos) y eso es suficiente para primeros pasos con RAG y la búsqueda semántica.
Donahue: El 80 % de los datos de una empresa no están estructurados, ya sean correos electrónicos, memorandos, plataformas de mensajería interna (como Slack o Microsoft Teams) o presentaciones empresariales. La pregunta es: ¿qué quiere hacer con esos datos? ¿Crear eficiencias para los ingenieros que actualmente realizan trabajos similares de limpieza de datos? ¿Desarrollar nuevas ideas de producto basadas en datos de ventas y marketing? Hay innumerables posibilidades y oportunidades para la IA. Identifique un objetivo. Identifique los datos necesarios. Empiece poco a poco.
Calvesbert: Creo que las arquitecturas lakehouse y los formatos de tabla abierta, como Iceberg, se han convertido en la arquitectura de gestión de datos dominante para nuevos datos/cargas de trabajo. Las capacidades vectoriales se han entregado de forma nativa en muchas bases de datos operativas/analíticas, de modo que las cargas de trabajo de IA generativa pueden infundirse en las aplicaciones existentes. Estamos empezando a ver que los sectores se dan cuenta de que RAG por sí solo no va a ser suficiente para ciertos casos de uso que requieren una contextualización adicional basada en relaciones no obvias (GraphRAG) y una precisión mejorada de los registros transaccionales (SQL-RAG). Los clientes también se dan cuenta de que implementar un modelo de autorización de usuario que respete los controles de acceso existentes en los sistemas de gestión de contenidos empresariales es un desafío crítico que superar para escalar la IA generativa en toda la empresa.
Donahue: Estamos empezando a ver que los equipos de ingeniería de ciencia de datos y machine learning trabajan más estrechamente con los equipos de ingeniería de datos. Los equipos de ingeniería de datos han crecido en torno al auge del almacenamiento de datos y las aplicaciones de inteligencia empresarial durante la última década e históricamente han operado en el mundo de SQL, bases de datos estructuradas y procesos de análisis de negocios diseñados para analistas de datos y consumidores de alto nivel. A medida que las empresas se han decantado por los LLM, el apetito por grandes volúmenes de datos preprocesados se ha disparado. Sin embargo, estos consumidores tienden a operar en el mundo de Python, bases de datos vectoriales e interfaces de usuario rápidas y desechables. Con el tiempo, esperamos que los equipos de ingeniería de datos maduros asuman cada vez más la responsabilidad de suministrar a los equipos de IA generativa datos listos para la empresa.
Calvesbert: Creo que los clientes buscan simplificar sus activos de datos y los costes y riesgos asociados. Con ese fin, las bases de datos multimodelo y las arquitecturas de lagos multimotor continuarán compitiendo con éxito por cargas de trabajo con bases de datos aisladas, ya que los clientes buscan consolidarse en un número reducido de plataformas de datos. Los modelos de texto a SQL se están volviendo muy buenos, lo que reducirá drásticamente la barrera para trabajar con datos para una amplia gama de casos de uso más allá de la inteligencia empresarial.
Del mismo modo, la proliferación de agentes infundirá datos en un volumen explosivo y una variedad de flujos de trabajo automatizados. Algunos de estos flujos de trabajo agénticos revolucionarán muchas actividades de los trabajadores del conocimiento y crearán nuevas y emocionantes oportunidades. Imagine procesar una conversación interna o externa con los clientes y asignarla inmediatamente a los productos de un catálogo o registro de oportunidades en un sistema CRM, incluida una evaluación automatizada del estado de progresión y la propensión al cierre.
Donahue: A diferencia de la pila de datos moderna, en la que Snowflake, BigQuery y Databricks establecieron la "gravedad de los datos" en el espacio de almacenamiento de datos, todavía tenemos que hacer lo mismo con los datos no estructurados. Y dado que son cuatro veces más voluminosos que los datos estructurados y crecen exponencialmente cada año, lo que está en juego no podría ser mayor para la próxima generación de soluciones de almacenamiento para LLM. El jurado aún no ha decidido qué combinación de vectores, gráficos, objetos u otros tipos de almacenamiento se convertirá en dominante, ni qué proveedores de cada categoría prevalecerán, pero es probable que los ganadores queden claros en los próximos 18 a 24 meses.