11 de julio de 2025
El 11 de junio de 2025, IBM lanzó la disponibilidad de su nuevo enfoque hacia la integración de datos: watsonx.data integration. Esta solución ofrece un único plano de control para crear pipelines por lotes, streaming en tiempo real y replicación de datos, respaldado por Observabilidad integrada.
Dentro de la misma solución, los equipos pueden crear pipelines de datos no estructurados reutilizables de datos no estructurados junto con los estructurados, desbloqueando una mina de oro de datos que antes eran inaccesibles para impulsar nuevos casos de uso y satisfacer las demandas cambiantes de los entornos de datos modernos. Con la integración de datos no estructurados (UDI) de watsonx.data integration, los usuarios pueden crear de forma intuitiva pipelines que ingieran, transformen y procesen grandes volúmenes de datos no estructurados, incluidos documentos, PDF, PPT y más, en solo minutos.
Este producto combina innovaciones revolucionarias de código abierto y patentadas directamente de IBM® Research. Algunas de las mejores características del producto en su clase incluyen:
Diseñada para manejar los datos empresariales que tradicionalmente se han infrautilizado, watsonx.data integration marca un gran paso adelante en el desbloqueo de datos no estructurados para IA y analytics.
La mayoría de los datos públicos ya están bien representados en los modelos fundacionales actuales,por lo que la verdadera ventaja competitiva proviene de aprovechar los datos de su empresa. Sin embargo, el 90 % de los datos empresariales no están estructurados, un volumen abrumador de información que permanece sin explotar, desde documentos y PDF hasta correos electrónicos, imágenes y registros; la mayor parte permanece fuera del alcance de los flujos de trabajo tradicionales de analytics e IA. Y debido a la complejidad del acceso y la gestión, solo el 1 % se utiliza actualmente en IA generativa.
Obtenga más información sobre los desafíos de los enfoques tradicionales de datos no estructurados. La integración de IBM watsonx.data y su ecosistema más amplio de herramientas están diseñados para abordar estos desafíos de una vez. A continuación, se presentan las características clave de la capacidad UDI que ayudan a las organizaciones a navegar por el escenario de datos actual en rápida evolución.
Esta solución incluye conectores predefinidos que permiten a los usuarios ingerir una amplia gama de fuentes y formatos de datos de uso común, junto con sus metadatos y controles de acceso asociados, a escala y a medida que evolucionan. Si bien existen algunos conectores no estructurados en el mercado, pocos pueden adaptarse dinámicamente a medida que los documentos o permisos cambian con el tiempo.
Desarrollada en colaboración con IBM, watsonx.data integration combina innovación con tecnologías de código abierto para llevar el procesamiento de datos no estructurados al pipeline de datos moderno. Su lienzo visual incluye operadores especialmente diseñados para texto y otras modalidades, que cubren el enmascaramiento de información de identificación personal (PII), la detección de odio, abuso y blasfemias (HAP), el filtrado de calidad, la detección de lenguaje y la puntuación de confianza. Los desarrolladores pueden diseñar un único pipeline para procesar diversos tipos de archivos a escala, sin escribir ni mantener código personalizado. Al igual que ELT de arrastrar y soltar para datos estructurados, watsonx.data integration brinda la misma experiencia intuitiva y sin código a los datos no estructurados y también ofrece un SDK de Python con todas las funciones para aquellos que prefieren trabajar de manera más programática.
Además, los operadores predefinidos para incorporar, fragmentar y vectorizar permiten a los usuarios transformar documentos sin procesar en representaciones estructuradas optimizadas para la IA descendente. Estos operadores convierten automáticamente el contenido no estructurado en vectores semánticamente significativos, lo que permite casos de uso como RAG, clasificación de documentos y búsqueda inteligente sin necesidad de conocimientos profundos de machine learning (ML) experto.
Este soporte para la integración de datos no estructurados está diseñado para procesar petabytes de contenido complejo y no estructurado de manera eficiente. Los documentos de 10 MB o más, en miles de archivos, se comprimen en un formato unificado de alto rendimiento, lo que permite un procesamiento y reprocesamiento rápidos. Esta arquitectura está diseñada específicamente para satisfacer las demandas de datos no estructurados a escala empresarial.
El pipeline admite estructuras de datos de actualización automática. Cuando un documento de origen, por ejemplo, el "Documento A", se actualiza a una nueva versión, solo se captura el delta y se propaga perfectamente en sentido descendente, incluso a la base de datos vectorial. Esto garantiza que miles de pipelines a escala se mantengan actualizados sin necesidad de un reprocesamiento completo.
Soporte nativo para ACL, lo que garantiza que los permisos a nivel de documento se conserven en todo el pipeline de datos. Esto significa que los usuarios solo acceden a los datos que están autorizados a ver, lo que es crítico para mantener la seguridad, el cumplimiento y la confianza a medida que los datos no estructurados fluyen entre equipos y aplicaciones.
En última instancia, ninguna organización singular puede corregir los problemas antes mencionados en el vacío. El soporte de watsonx.data integration para UDI se basa en una infraestructura flexible basada en herramientas modernas de código abierto. A continuación, se muestran los componentes técnicos centrales que forman esta base.
El soporte de watsonx.data integration UDI se desarrolló en respuesta a la propia experiencia de IBM construyendo la familia Granite de modelos fundacionales. El procesamiento y la preparación de los 12 billones de tokens utilizados para entrenar Granite expuso brechas críticas en las herramientas de datos no estructurados existentes. En respuesta, IBM Research creó el kit de preparación de datos (DPK) y los marcos modulares de datos y fábrica de modelos (DMF)que ofrecen operadores de limpieza sólidos en todas las modalidades, como texto, código, lenguajes e imágenes. Estos componentes probados en batalla, ahora empaquetados en watsonx.data integration, fueron diseñados para casos de uso de alto rendimiento y grado de producción. Hoy en día, DPK ha sido de código abierto a través de Linux Foundation, continuando con la misión de IBM de democratizar el acceso a herramientas avanzadas de datos no estructurados.
El soporte de watsonx.data integration para UDI también incorpora Watson Document Understanding y Docling, una iniciativa de IBM de código abierto con más de 30 000 estrellas de GitHub, para ofrecer análisis de documentos y extracción de entidades de última generación. Estas tecnologías se destacan en tareas de extracción complejas, incluida la extracción de tablas, con una velocidad y precisión líderes en la industria.
Ya sea que prefiera opciones de código abierto como Milvus y bases de datos vectoriales gestionadas, la UDI de watsonx.data integration ofrece opciones de soporte. Los pipelines de vectorización están integrados de forma nativa en la plataforma, lo que permite un despliegue rápido en su solución de almacenamiento preferida para cargas de trabajo de búsqueda semántica y RAG.
IBM watsonx.data integration está probando activamente integraciones con Langchain y otros marcos de orquestación de código abierto populares, lo que aporta un verdadero aumento de la innovación impulsada por la comunidad a la plataforma. Estas integraciones permiten la orquestación de un paquete completo de funciones construidas o aprovechadas a través de Langchain directamente dentro de un pipeline de integración nativo de watsonx.data, al tiempo que preservan la gobernanza, la seguridad y la escalabilidad de nivel empresarial necesarias para el uso en producción.
Con IBM watsonx.data integration, los clientes pueden desbloquear todo el potencial de los datos no estructurados a través de una poderosa combinación de innovación de código abierto y tecnología empresarial. Desde la generación de contenido personalizado hasta la agregación de facturas y la toma de decisiones, UDI transforma el contenido sin procesar en insights listos para IA, ahora disponibles como parte de IBM watsonx.data integration.
Lo que distingue a esta oferta es su capacidad para unificar datos estructurados y no estructurados en una sola plataforma, lo que simplifica la creación de pipelines y la dispersión de herramientas, acelerando así los resultados. Independientemente del caso de uso, watsonx.data integration es la base para desbloquear el valor empresarial de todos sus datos.