11 de julio de 2025
El 11 de junio de 2025, IBM lanzó su nuevo enfoque para la integración de datos: watsonx.data integration. Esta solución ofrece un único plano de control para crear pipelines por lotes, streaming en tiempo real y replicación de datos, respaldado por la observabilidad integrada.
Dentro de la misma solución, los equipos pueden crear pipelines de datos no estructurados reutilizables junto con las estructuradas, desbloqueando una mina de oro de datos previamente inaccesibles para impulsar nuevos casos de uso y satisfacer las demandas cambiantes de los entornos de datos modernos. Con la capacidad de Integración de datos no estructurados (UDI) de watsonx.data integration, los usuarios pueden crear de forma intuitiva pipelines que consumir, transformen y procesen grandes volúmenes de datos no estructurados, incluidos documentos, PDF, PPT y más, en cuestión de minutos.
Este producto combina innovaciones revolucionarias de código abierto y patentadas directamente de IBM® Research. Algunas de las mejores características del producto incluyen:
Diseñada para gestionar los datos empresariales que tradicionalmente se han infrautilizado, watsonx.data integration marca un gran paso adelante en el desbloqueo de datos no estructurados para la IA y la analítica.
La mayoría de los datos públicos ya están bien representados en los modelos fundacionales actuales, por lo que la verdadera ventaja competitiva procede del aprovechamiento de los datos de su empresa. Sin embargo, el 90 % de los datos empresariales no están estructurados, un volumen abrumador de información que permanece sin explotar, desde documentos y PDF hasta correos electrónicos, imágenes y registros; la mayor parte permanece fuera del alcance de los flujos de trabajo tradicionales de analytics e IA. Y debido a la complejidad del acceso y la gestión, solo el 1 % se utiliza actualmente en la IA generativa.
Obtenga más información sobre los retos de los enfoques tradicionales de datos no estructurados. IBM® watsonx.data integration y su ecosistema más amplio de herramientas están diseñados para abordar estos desafíos. A continuación se presentan las características clave de la capacidad UDI que ayudan a las organizaciones a navegar por el panorama de datos en rápida evolución actual.
Esta solución incluye conectores prediseñados que permiten a los usuarios consumir una amplia gama de fuentes y formatos de datos de uso común, junto con sus metadatos y controles de acceso asociados, a escala y a medida que evolucionan. Aunque existen algunos conectores no estructurados en el mercado, pocos pueden adaptarse dinámicamente a medida que los documentos o los permisos cambian con el tiempo.
Desarrollada en colaboración con IBM, watsonx.data integration combina la innovación con las principales tecnologías de código abierto para llevar el procesamiento de datos no estructurados al pipeline de datos moderno. Su lienzo visual incluye operadores creados específicamente para texto y otras modalidades, que cubren el enmascaramiento de información de identificación personal (PII), la detección de odio, abuso y blasfemias (HAP), el filtrado de calidad, la detección del lenguaje y la puntuación de confianza. Los desarrolladores pueden diseñar un único pipeline para procesar diversos tipos de archivos a escala, sin escribir ni mantener código personalizado. Al igual que el ELT de arrastrar y soltar para datos estructurados, watsonx.data integration aporta la misma experiencia intuitiva, low/no-code a los datos no estructurados y también ofrece un Python SDK con todas las funciones para aquellos que prefieren trabajar de forma más programática.
Además, los operadores prediseñados para incrustar, fragmentar y vectorizar permiten a los usuarios transformar documentos sin procesar en representaciones estructuradas optimizadas para la IA posterior. Estos operadores convierten automáticamente el contenido no estructurado en vectores semánticamente significativos, lo que permite casos de uso como RAG, clasificación de documentos y búsqueda inteligente, todo ello sin necesidad de amplios conocimientos de machine learning (ML).
Este soporte para la integración de datos no estructurados está diseñado para procesar petabytes de contenido complejo y no estructurado de manera eficiente. Los documentos de 10 MB o más (en miles de archivos) se comprimen en un formato unificado de alto rendimiento, lo que permite un procesamiento y reprocesamiento rápidos. Esta arquitectura está diseñada específicamente para satisfacer las demandas de datos no estructurados a escala empresarial.
El pipeline admite estructuras de datos autoactualizables. Cuando un documento de origen, por ejemplo, "Documento A", se actualiza a una nueva versión, solo se captura el delta y se propaga de manera fluida en sentido descendente, incluso a la base de datos vectorial. Esto garantiza que miles de pipelines a escala se mantengan actualizadas sin necesidad de un reprocesamiento completo.
Compatibilidad nativa con ACL, lo que garantiza que los permisos a nivel de documento se conserven en todo el pipeline de datos. Esto significa que los usuarios solo acceden a los datos que están autorizados a ver, lo cual es crítico para mantener la seguridad, el cumplimiento y la confianza, ya que los datos no estructurados fluyen entre equipos y aplicaciones.
En última instancia, ninguna organización aislada puede corregir los problemas antes mencionados en el vacío. El soporte de watsonx.data integration para UDI se basa en una infraestructura flexible basada en herramientas de código abierto modernas. A continuación se muestran los componentes técnicos básicos que forman esta base.
El soporte de watsonx.data integration para UDI se desarrolló en respuesta a la propia experiencia de IBM en la creación de la familia Granite de modelos fundacionales. El procesamiento y la preparación de los 12 billones de tokens utilizados para entrenar Granite expusieron lagunas críticas en las herramientas de datos no estructurados existentes. En respuesta, IBM Research creó el kit de preparación de datos (DPK) y la fábrica de datos y modelos (DMF), marcos modulares que ofrecen sólidos operadores de limpieza en modalidades como texto, código, lenguajes e imágenes. Estos componentes probados, ahora empaquetados en watsonx.data integration, se diseñaron para casos de uso de alto rendimiento y grado de producción. En la actualidad, DPK es de código abierto a través de la Linux Foundation, continuando con la misión de IBM de democratizar el acceso a herramientas avanzadas de datos no estructurados.
El soporte de watsonx.data integration para UDI también incorpora watsonx Document Understanding and Docling, una iniciativa de IBM de código abierto con más de 30 000 estrellas de GitHub, para ofrecer análisis de documentos y extracción de entidades de última generación. Estas tecnologías destacan en tareas de extracción complejas, incluida la extracción de tablas, con una velocidad y precisión líderes en el sector.
Tanto si prefiere opciones de código abierto como Milvus y bases de datos vectoriales gestionadas, la UDI de watsonx.data integration ofrece opciones de soporte. Los pipelines de vectorización están integrados de forma nativa en la plataforma, lo que permite una rápida implementación en su solución de almacenamiento preferida para cargas de trabajo de búsqueda semántica y RAG.
IBM watsonx.data integration está probando activamente integraciones con Langchain y otros marcos de integración de código abierto populares, lo que aporta un verdadero aumento de la innovación impulsada por la comunidad a la plataforma. Estas integraciones permiten la orquestación full stack de funciones construidas o aprovechadas VIA Langchain directamente dentro de un pipeline nativo de watsonx.data integration, al mismo tiempo que preservan el gobierno, la seguridad y la escalabilidad de nivel empresarial necesarios para el uso en producción.
Con IBM watsonx.data integration, los clientes pueden desbloquear el potencial total de datos no estructurados a través de una potente combinación de innovación de código abierto y tecnología. Desde la generación de contenido personalizado hasta la agregación de facturas y la toma de decisiones, UDI transforma el contenido sin procesar en conocimientos listos para la IA, ahora disponibles como parte de IBM watsonx.data integration.
Lo que distingue a esta oferta es su capacidad para unificar datos estructurados y datos no estructurados en una sola plataforma, lo que simplifica la creación de pipelines y la proliferación de herramientas, acelerando así los resultados. Independientemente del caso de uso, watsonx.data integration es la base para desbloquear el valor empresarial de todos sus datos.