6 de mayo de 2025
En Think esta semana, IBM está simplificando radicalmente la pila de datos para IA.
IBM está anticipando la gran evolución de watsonx.data, que puede ayudar a las organizaciones a preparar sus datos para la IA y proporcionar una base de datos abierta híbrida y una gestión de datos estructurados y no estructurados lista para la empresa.
¿El resultado? IA un 40% más precisa que la RAG convencional, según pruebas con IBM watsonx.data.1 Los productos y características que se espera debuten en junio incluyen:
La integración de watsonx.data y watsonx.data intelligence estarán disponibles como productos independientes, y ciertas capacidades también estarán disponibles a través de watsonx.data—maximizando la elección del cliente y la modularidad.
Para complementar estos productos, IBM anunció recientemente su intención de adquirir DataStax, que se destaca en el aprovechamiento de datos no estructurados para la IA generativa. Con DataStax, los clientes pueden acceder a capacidades adicionales de búsqueda vectorial.
Basado en pruebas internas que comparan la corrección de las respuestas de los resultados del modelo de IA utilizando la capa de recuperación de watsonx.data Premium Edition con RAG solo vectorial en tres casos de uso comunes con conjuntos de datos de IBM utilizando el mismo conjunto de modelos de inferencia, evaluación e incorporación de código abierto seleccionados y variables adicionales. Los resultados pueden variar.
Las empresas se enfrentan a una barrera importante para lograr una IA generativa precisa y eficaz—especialmente la IA agéntica. Pero la barrera no es lo que piensan la mayoría de los líderes empresariales.
El problema no son los costos de inferencia o el elusivo modelo "perfecto". El problema son los datos.
Las organizaciones necesitan datos confiables y específicos de la empresa para que la IA agéntica realmente cree valor—los datos no estructurados dentro de correos electrónicos, documentos, presentaciones y videos. Se estima que en 2022, el 90% de los datos generados por las empresas no estaban estructurados, pero IBM proyecta que solo el 1% se contabiliza en los LLM.
Los datos no estructurados pueden ser inmensamente difíciles de aprovechar. Está muy distribuido y es dinámico, está encerrado en diversos formatos, carece de etiquetas claras y, a menudo, necesita contexto adicional para interpretarlo por completo. La generación aumentada por recuperación convencional (RAG) no es eficaz para extraer su valor y no puede combinar adecuadamente datos estructurados y no estructurados.
Mientras tanto, una variedad de herramientas desconectadas puede hacer que la pila de datos para IA sea compleja y engorrosa. Las empresas hacen malabarismos con almacenes de datos, lagos de datos y herramientas de gobernanza de datos e integración. La pila de datos puede resultar tan desorientadora como los datos no estructurados que se supone que debe gestionar.
Muchas organizaciones no están abordando el problema de raíz. Se centran únicamente en la capa de aplicación de IA generativa, en lugar de la capa de datos esencial que se encuentra debajo. Hasta que las organizaciones arreglen su base de datos, los agentes de IA y otras iniciativas de IA generativa no podrán ofrecer todo su potencial.
Las nuevas capacidades de IBM permitirán a las organizaciones ingerir, gobernar y recuperar datos no estructurados (y estructurados)—y, a partir de ahí, escalar una IA generativa precisa y eficiente.
Novedades en el boletín informativo de IBM
Reciba los mayores anuncios de productos y características, incluidos chats de video recientes sobre productos y ofertas educativas de IBM y nuestros socios de capacitación. Consulte la Declaración de privacidad de IBM.