Superar los tres retos principales de los datos no estructurados

Representación en 3D de plataformas cuadradas blancas flotantes en una cuadrícula con un cubo azul sobre una de ellas

Autores

Dinesh Nirmal

SVP

IBM Software

Alice Gomstyn

Staff Writer

IBM Think

Los datos fiables son críticos para ayudar a las empresas a tener éxito en sus iniciativas de IA generativa. Las empresas luchan por aprovechar lo que podría ser una poderosa fuente de conocimiento: datos no estructurados. Alrededor del 90 % de los datos producidos por las empresas no están estructurados y la información valiosa se almacena en correos electrónicos, documentos PDF, archivos de vídeo y otros formatos1.

La buena noticia es que las soluciones y enfoques en evolución pueden permitir a las empresas organizar, acceder y derivar inteligencia de sus datos no estructurados. La colaboradora de Think Alice Gomstyn se sentó con Dinesh Nirmal, vicepresidente sénior de IBM Software, para hablar sobre cómo las empresas pueden desbloquear el potencial de los tesoros de datos que antes se consideraban fuera de su alcance.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Gomstyn: ¿A qué retos se enfrentan las organizaciones a la hora de utilizar sus datos no estructurados?

Nirmal: Hay tres retos principales con los datos no estructurados. La escalabilidad es una. ¿Cómo los escala y cómo los gobierna? En segundo lugar, ¿cómo se asegura de que la IA generativa tenga un rendimiento y una precisión asociados? Y el tercero tiene que ver con cómo correlacionar lo no estructurado y lo estructurado para obtener valor de esos datos.

Gomstyn: ¿Puede explicarnos el desafío de la escalabilidad y lo que se necesita para abordar la dirección?

Nirmal: los datos no estructurados son más complejos en el sentido de que pueden tener cientos de campos y algunos de ellos pueden ser campos masivos o campos seguros. Al consumir esos documentos, es crítico que se trate de una ingesta gobernada y que los datos se almacenen en un almacen gobernado, como un lakehouse de datos.

También necesita gobierno en su pipeline de datos. ¿Cómo se incorporan la observabilidad y la supervisión? Si hay una desviación en esa canalización o un cambio en es pipeline, ¿cómo se identifica y se resuelve rápidamente? Estos pipelines pueden ser complejas y largas, y usted desea asegurarse de obtener los resultados, el tiempo de ejecución, el rendimiento y la precisión correctos en todo momento. Necesita herramientas para asegurarse de que puede crear, gobernar y observar las canalizaciones.

Para las empresas, también se trata de seguridad. La seguridad de datos se convierte en un elemento crítico para garantizar que no pierdan esos datos. Contamos con herramientas de seguridad de datos para asegurar que los datos estén cifrados. Por lo tanto, a medida que escala, desea asegurarse de que el gobierno y la seguridad que tiene en el lado estructurado también llegue al lado no estructurado.

Gomstyn: ¿Qué pasa con el segundo desafío principal: lograr el rendimiento del modelo de IA generativa?

Nirmal: Se trata de una gran oportunidad, porque la IA generativa solo puede tener éxito si podemos proporcionar datos fiables y gobernados a estos modelos para que se entrenen y reciban estímulos.

Las herramientas de gobierno también permiten acceder a los datos. Al utilizar herramientas de gobierno como los catálogos de datos, puedo poner los datos no estructurados a disposición de mis científicos de datos e ingenieros de prompts para que puedan ajustar sus modelos utilizando los datos no estructurados.

El gobierno y la innovación van de la mano. Si realmente está innovando para brindar autoservicio de datos, entonces es necesario que exista un gobierno que le permita realizar dicho autoservicio. Desde la perspectiva de los productos de datos, hacer que el autoservicio de datos esté disponible es el primer elemento que se debe priorizar.

Mixture of Experts | 28 de agosto, episodio 70

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Gomstyn: ¿Cómo se enfrenta al tercer reto de correlacionar datos estructurados y datos no estructurados?

Nirmal: el panorama actual es que, si tiene datos no estructurados en forma de documento, debe dividir o subdividir el documento en varias partes y almacenarlo como embeddings en una base de datos vectorial.

El reto que se presenta es que se pierde precisión porque no se sabe dónde se están fragmentando los datos. Digamos que se partió o se cortó en medio de una tabla. Cuando recupera la tabla, está trayendo la mitad de la tabla y ha perdido la precisión de la misma.

¿Qué podemos hacer? No solo almacenamos los datos en una base de datos vectorial, sino que también tomamos los aspectos transaccionales de ese documento y los colocamos en una base de datos transaccional. Y cuando tiene una consulta en lenguaje natural, compara ambos lados para decir: ¿cómo puedo reunir los datos para obtener una mayor precisión y rendimiento? Ahí es donde entran en juego RAG SQL o Graph RAG: puede usarlos para obtener un mayor nivel de precisión. Ese es el objetivo de asegurarse de que está correlacionando los datos entre la base de datos transaccional y lo que tiene en una base de datos vectorial.

Gomstyn: ¿Cuáles son las habilidades y competencias críticas que los líderes de TI deben desarrollar para gestionar eficazmente los datos no estructurados?

Nirmal: La ingeniería de datos es la pieza más importante en el lado de los datos no estructurados. En el lado estructurado, la ingeniería de datos es una disciplina bien organizada, pero en el lado no estructurado, no ha despegado realmente porque hay una enorme cantidad de datos.

Pero ahora, el gobierno, la seguridad y todas esas cosas están entrando en el lado no estructurado de las cosas. Necesitamos ingenieros de datos que diseñen literalmente los datos, para que estén disponibles como canalizaciones de datos. Los necesitamos para crear productos de datos para datos no estructurados y hacer que el autoservicio esté disponible para todos los científicos de datos y todos los ingenieros. Las habilidades que los ingenieros de datos utilizan en el lado de los datos estructurados se pueden utilizar en el lado no estructurado; simplemente se aplicarán a una escala mucho, mucho mayor.

Gomstyn: ¿Cómo se mide el éxito de los proyectos piloto de datos no estructurados?

Nirmal: El verdadero retorno de la inversión se produce cuando hay valor para el usuario final en la empresa. Por ejemplo, llamo a mi compañía telefónica y hay un representante de atención al cliente en la línea. Cuando hago una pregunta, deben buscar la respuesta antes de dármela.

Ahora, con la IA generativa, puedo hacerlo en Internet. Puedo hacer una pregunta sencilla a un asistente o a un chatbot, que puede acceder a un formato de datos no estructurados, como un documento de facturación. En 15 segundos, tengo una respuesta que resume mi factura o algo sobre mi cuenta. Mire el tiempo que he ahorrado. No necesitaba estar 15 minutos esperando a que alguien contestara a una llamada. Lo tengo al alcance de la mano. La IA generativa me lo ha permitido como usuario final.

Todo gira en torno a la productividad, el ahorro de tiempo y la optimización que impulsa la IA generativa, especialmente en lo que respecta a los datos no estructurados.

Esta entrevista ha sido editada y resumida para mayor claridad y duración.

Soluciones relacionadas
Software y soluciones de bases de datos

Utilice las soluciones de bases de datos de IBM para satisfacer las distintas necesidades de carga de trabajo en la nube híbrida.

Explore las soluciones de bases de datos
Base de datos nativa de la nube con IBM Db2

Explore IBM Db2, una base de datos relacional que ofrece alto rendimiento, escalabilidad y fiabilidad para almacenar y gestionar datos estructurados. Está disponible como SaaS en IBM Cloud o para autoalojamiento.

Descubra Db2
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
Dé el siguiente paso

Utilice las soluciones de bases de datos de IBM para satisfacer las distintas necesidades de carga de trabajo en la nube híbrida.

Explore las soluciones de bases de datos Descubra IBM Db2
Notas a pie de página