Los datos son la gasolina que hace funcionar los motores de la IA. Y muchas empresas no están aprovechando al máximo el tesoro de datos no estructurados que tienen a su alcance porque no están seguros de cómo llenar el tanque.
Es por eso que las empresas que tienen las herramientas para procesar datos no estructurados están llamando la atención de los inversionistas. El mes pasado, Salesforce realizó una adquisición importante para potenciar su plataforma Agentforce, solo una de varias inversiones recientes en proveedores de gestión de datos no estructurados.
“La IA generativa elevó la importancia de los datos no estructurados, es decir, los documentos, para el ajuste fino de RAG y LLM y el análisis tradicional para el machine learning, la business intelligence y la ingeniería de datos”, afirma Edward Calvesbert, vicepresidente de gestión de productos de IBM watsonx y uno de los expertos en datos residentes de IBM. "La mayoría de los datos que se generan todos los días no están estructurados y presentan la mayor nueva oportunidad".
Queríamos Aprenda más sobre lo que los datos no estructurados tienen para almacenar en la IA. Así que nos sentamos con Calvesbert y Dave Donahue, jefe de estrategia de la empresa de ciencia de datos Unstructured, que cerró una ronda de inversión de 40 millones de dólares con IBM, Nvidia y Databricks en marzo, para conocer su opinión sobre la importancia de los datos no estructurados y hacia dónde se dirigen a continuación.
Edward Calvesbert, IBM: los datos no estructurados (lenguaje, imágenes, etc.) son los "nuevos" datos de los que se alimentan los modelos fundacionales y pueden ayudar a interpretar, por lo que es lo que está en el centro de atención en este momento. Pero al igual que con los datos estructurados, los datos no estructurados deben gobernarse (clasificarse, evaluarse en cuanto a calidad, filtrarse para PII y contenido objetable y deduplicarse), por lo que las estrategias exitosas aplicarán muchas de las capacidades tradicionales de gestión de datos estructurados a los datos no estructurados.
Dave Donahue, Unstructured: los datos no estructurados no son inherentemente más valiosos que los datos estructurados, pero en general, las grandes organizaciones producen cuatro veces más datos no estructurados que datos estructurados. Entonces, la pregunta es, ¿quiere utilizar más datos, y especialmente datos no estructurados generados por humanos, al implementar la IA? La respuesta debería ser un rotundo “Sí”.
Calvesbert: “Suficientemente bueno” es un objetivo móvil y depende del caso de uso. Una base de conocimientos para que RAG mejore la búsqueda semántica, las preguntas y respuestas y el resumen para los agentes de atención al cliente requiere que la base de conocimientos de documentos sea completa, precisa y actualizada. Los datos para ajustar un modelo requieren un conjunto de ejemplos curados por humanos de pares de instrucciones/respuestas. Los documentos procesados en tablas o bases de datos gráficas para impulsar casos de uso analíticos requieren una extracción eficaz de entidades o valores. En casi todos los casos, los datos deben clasificarse, filtrarse y gestionarse en el contexto del ciclo de vida del caso de uso.
Donahue: a nivel empresarial o empresarial, los datos “buenos” son limpios, estructurados y enriquecidos. Esta canalización de preprocesamiento debe minimizar la pérdida de información entre el contenido original y la versión lista para LLM. Unstructured permite a las empresas transformar sus datos no estructurados en un formato estandarizado, independientemente del tipo de archivo, y enriquecerlos con metadatos adicionales. Esto permite a las organizaciones mitigar los tres desafíos clave a los que se enfrentan cuando utilizan LLM: están congelados en el tiempo, tienden a inventar cosas y no saben nada sobre su organización específica desde el primer momento.
Calvesbert: un importante cliente de telecomunicaciones con el que trabajamos comenzó con una base de conocimientos interna para los agentes de atención al cliente, lo que redujo el tiempo necesario para obtener una respuesta a los clientes y mejoró la precisión de esa respuesta. Se propagó orgánicamente, como un incendio forestal, dentro del centro de atención telefónica, momento en el que la compañía tuvo que dar un paso atrás y comenzar a trabajar en la gobernanza y el rendimiento de los precios. Internamente, implementamos un caso de uso de automatización de marketing en el que se ingirieron las pautas y ejemplos de marca de IBM para generar nuevo contenido de marketing y curarlo para lograr una calidad y un tono constantes.
Donahue: estamos trabajando con una empresa global de bienes de consumo envasados para ayudarles a desarrollar nuevas ideas de productos. Puede preguntarse: "¿Qué tiene eso que ver con los datos no estructurados?" Bueno, históricamente, a los equipos de marketing y productos les tomaba meses analizar montañas de datos de ventas, información de retroalimentación de productos e información demográfica para generar nuevas ideas o conceptos que pudieran probar con los usuarios finales en esos mercados específicos. ¿Y si pudiéramos ayudar a reducir ese proceso de meses a horas? ¿Y si pudiéramos generar nuevas ideas para productos basadas en los datos que los equipos podrían probar rápidamente?
Ese es el poder de aprovechar sus datos no estructurados para crear valor empresarial. Ahora, esa empresa de CPG está aprovechando sus datos en varias de sus marcas para desarrollar y probar nuevas ideas de productos para llevar al mercado.
Calvesbert: todas las empresas tienen documentos (piense en lo que proporcionan a los nuevos empleados para incorporarlos) y eso es suficiente para primeros pasos con RAG y la búsqueda semántica.
Donahue: el 80 % de los datos de una empresa no están estructurados, ya sean correos electrónicos, memorandos, plataformas de mensajería interna (como Slack o Microsoft Teams) o presentaciones comerciales. La pregunta es, ¿qué quiere hacer con esos datos? ¿Crear eficiencias para los ingenieros que actualmente realizan un trabajo similar de limpieza de datos? ¿Desarrolla nuevas ideas de productos basadas en datos de ventas y marketing? Existen innumerables posibilidades y oportunidades para la IA. Identificar un objetivo. Identifica los datos necesarios. Empieza poco a poco.
Calvesbert: creo que las arquitecturas lakehouse y los formatos de mesa abierta, concretamente Iceberg, se convirtieron en la arquitectura dominante de gestión de datos para nuevos datos/cargas de trabajo. Las capacidades vectoriales se han entregado de forma nativa en muchas bases de datos operativas/analíticas para que las cargas de trabajo de IA generativa se puedan infundir en las aplicaciones existentes. Estamos empezando a ver que la industria se da cuenta de que RAG por sí solo no será suficiente para ciertos casos de uso empresarial que requieren una contextualización adicional basada en relaciones no obvias (GraphRAG) y una precisión mejorada de los registros transaccionales (SQL-RAG). Los clientes también se dan cuenta de que implementar un modelo de autorización de usuario que respete los controles de acceso existentes en los sistemas de gestión de contenidos empresariales es un desafío crítico a superar para escalar la IA generativa en toda la compañía.
Donahue: estamos empezando a ver que los equipos de ciencia de datos y machine learning trabajan más estrechamente con los equipos de ingeniería de datos. Los equipos de ingeniería de datos han crecido alrededor del auge del almacenamiento de datos y las aplicaciones de business intelligence en la última década y han operado históricamente en el mundo de SQL, bases de datos estructuradas y procesos de business analytics diseñados para analistas de datos y altos ejecutivos. A medida que las empresas se han inclinado hacia los LLM, el apetito por grandes volúmenes de datos preprocesados se ha disparado. Sin embargo, estos consumidores tienden a operar en el mundo de Python, bases de datos vectoriales e interfaces de usuario rápidas y desechables. Con el tiempo, esperamos que los equipos maduros de ingeniería de datos asuman cada vez más la responsabilidad de proporcionar datos listos para la empresa a los equipos de IA generativa.
Calvesbert: creo que los clientes buscan simplificar sus patrimonios de datos y los costos y riesgos asociados. Con ese fin, las bases de datos multimodelo y las arquitecturas lakehouse multimotor Continuarán compitiendo con éxito por las cargas de trabajo con bases de datos aisladas a medida que los clientes busquen consolidarse en un número reducido de plataformas de datos. Los modelos de texto a SQL se están volviendo muy buenos, lo que reducirá drásticamente la barrera para trabajar con datos para una amplia gama de casos de uso más allá de business intelligence.
Del mismo modo, la proliferación de agentes infundirá datos en un volumen y una variedad cada vez mayores de flujos de trabajo automatizados. Algunos de estos flujos de trabajo agentes revolucionarán muchas actividades de los trabajadores del conocimiento y crearán nuevas y emocionantes oportunidades. Imagine procesar una conversación interna o externa con clientes y asignarla inmediatamente a productos en un catálogo o registro de oportunidad en un sistema CRM, incluida una evaluación automatizada del estado de progresión y la propensión al cierre.
Donahue: a diferencia de la pila de datos moderna, en la que Snowflake, BigQuery y Databricks establecieron la "gravedad de los datos" en el espacio de almacenamiento de datos, todavía tenemos que hacer lo mismo con los datos no estructurados. Y dado que son cuatro veces más voluminosos que los datos estructurados y crecen exponencialmente cada año, lo que está en juego no podría ser mayor para la próxima generación de soluciones de almacenamiento para LLM. Todavía está por decidir qué combinación de vectores, gráficos, objetos u otros tipos de almacenamiento será dominante, y qué proveedores en cada categoría prevalecerán, pero es probable que los ganadores estén claros en los próximos 18 a 24 meses.