6 de mayo de 2025
Esta semana, en Think, IBM simplifica radicalmente la pila de datos para la IA.
IBM anticipa la gran evolución de watsonx.data, que puede ayudar a las organizaciones a preparar sus datos para la IA y proporcionar una base de datos híbrida y abierta, así como una gestión de datos estructurados y no estructurados preparada para la empresa.
¿El resultado? Una IA un 40 % más precisa que la RAG convencional, según las pruebas con IBM watsonx.data1. Los productos y características que se espera que se lancen en junio incluyen:
Watsonx.data integration y watsonx.data intelligence estarán disponibles como productos independientes, y algunas capacidades también estarán disponibles a través de watsonx.data, lo que maximiza la elección del cliente y modularidad.
Para complementar estos productos, IBM ha anunciado recientemente su intención de adquirir DataStax, que sobresale en el aprovechamiento de datos no estructurados para la IA generativa. Con DataStax, los clientes pueden acceder a capacidades adicionales de búsqueda vectorial.
Basado en pruebas internas que comparan la exactitud de las respuestas de los resultados de los modelos de IA utilizando la capa de recuperación de watsonx.data Premium Edition con RAG solo vectorial en tres casos de uso con conjuntos de datos de IBM utilizando el mismo conjunto de modelos de inferencia, evaluación y embedding de código abierto seleccionados y variables adicionales. Los resultados pueden variar.
Las empresas se enfrentan a un obstáculo importante para la IA generativa precisa y eficaz, especialmente la IA agéntica. Pero la barrera no es lo que piensan la mayoría de los líderes empresariales.
El problema no son los costes de inferencia ni el elusivo modelo "perfecto". El problema son los datos.
Las organizaciones necesitan datos fiables y específicos de la empresa para que la IA agéntica cree realmente valor: los datos no estructurados dentro de correos electrónicos, documentos, presentaciones y vídeos. Se estima que en 2022, el 90 % de los datos generados por las empresas no estaban estructurados, pero según los proyectos de IBM, solo el 1 % se contabiliza en los LLM.
Los datos no estructurados pueden ser inmensamente difíciles de aprovechar. Están muy distribuidos y son dinámicos, están bloqueados en diversos formatos, carecen de etiquetas claras y, a menudo, necesitan contexto adicional para interpretarlos completamente. La generación aumentada por recuperación (RAG) convencional es ineficaz para extraer su valor y no puede combinar adecuadamente datos estructurados y no estructurados.
Mientras tanto, una serie de herramientas desconectadas puede hacer que la pila de datos para la IA sea compleja y engorrosa. Las empresas hacen malabarismos con almacenes de datos, data lakes y herramientas de gobierno de datos e integración. La pila de datos puede resultar tan desorientadora como los datos no estructurados que se supone que debe gestionar.
Muchas organizaciones no abordan el problema de raíz. Se centran únicamente en la capa de aplicación de IA generativa, en lugar de la capa de datos esencial que se encuentra debajo. Hasta que las organizaciones no arreglen su base de datos, los agentes de IA y otras iniciativas de IA generativa no podrán desarrollar todo su potencial.
Las nuevas capacidades de IBM permitirán a las organizaciones consumir, gobernar y recuperar datos no estructurados (y estructurados) y, a partir de ahí, escalar una IA generativa precisa y eficaz.
Novedades en el boletín de IBM
Reciba los anuncios más importantes sobre productos y características, incluidos chats de vídeo recientes sobre productos y ofertas educativas de IBM y nuestros socios de formación. Consulte la Declaración de privacidad de IBM.