Conquistar los 3 desafíos principales de los datos no estructurados

Render 3D de plataformas cuadradas blancas flotantes en una cuadrícula con un cubo azul sobre una de ellas

Autores

Dinesh Nirmal

SVP

IBM Software

Alice Gomstyn

Staff Writer

IBM Think

Los datos confiables son críticos para ayudar a las empresas a tener éxito en sus iniciativas de IA generativa. Las empresas luchan por aprovechar lo que podría ser una poderosa fuente de insights: los datos no estructurados. Alrededor del 90 % de los datos producidos por las empresas no están estructurados, con información valiosa almacenada en correos electrónicos, documentos PDF, archivos de video y otros formatos.1

La buena noticia es que las soluciones y los enfoques en evolución pueden permitir a las empresas organizar, acceder y obtener inteligencia de sus datos no estructurados. Alice Gomstyn, colaboradora de Think, se reunió con Dinesh Nirmal, vicepresidente sénior de IBM Software, para analizar cómo las compañías pueden desbloquear el potencial de fuentes de datos que antes se consideraban fuera de su alcance.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Gomstyn: ¿A qué retos se enfrentan las organizaciones a la hora de emplear sus datos no estructurados?

Nirmal: Hay tres desafíos principales con los datos no estructurados. La escalabilidad es una. ¿Cómo lo escala y cómo lo gobierna? Dos, ¿cómo se asegura de que haya rendimiento y precisión de IA generativa asociados a ella? Y el tercero tiene que ver con cómo correlacionar datos no estructurados y estructurados para obtener valor de esos datos.

Gomstyn: ¿Puede explicarnos con más detalle el reto de la escalabilidad y lo que hace falta para resolverlo?

Nirmal: los datos no estructurados son más complejos en el sentido de que podrían tener cientos de campos y algunos de ellos podrían ser campos masivos o campos seguros. Cuando ingiere esos documentos, es crítico que se trate de una ingesta gobernada y que los datos se almacenen en un almacén gobernado, como un lakehouse de datos.

También necesita gobernanza en su pipeline de datos. ¿Cómo se incorporan la observabilidad y el monitoreo? Si hay una desviación o un cambio en ese pipeline, ¿cómo se identifica y resuelve rápidamente? Estos pipelines pueden ser complejos y largos, y usted quiere asegurarse de obtener los resultados, el tiempo de ejecución, el rendimiento y la precisión correctos en todo momento. Necesita herramientas para asegurarse de que puede construir, gobernar y observar pipelines.

Para las empresas, también se trata de seguridad. La seguridad de los datos se convierte en un elemento crítico para asegurarse de que no se pierdan esos datos. Contamos con herramientas de seguridad de datos para asegurarnos de que los datos estén cifrados. Por lo tanto, a medida que escala, debe asegurarse de que la gobernanza y la seguridad que tiene en el lado estructurado también lleguen al lado no estructurado.

Gomstyn: ¿Qué pasa con el segundo desafío central: lograr el rendimiento del modelo de IA generativa?

Nirmal: se trata de una gran oportunidad, porque la IA generativa sólo puede tener éxito si podemos proporcionar datos fiables y gobernados a estos modelos para que se capaciten y reciban estímulos.

Las herramientas de gobernanza también permiten el acceso a los datos. Con herramientas de gobernanza como catálogos de datos, puedo poner los datos no estructurados a disposición de mis científicos de datos e ingenieros de instrucciones para que puedan ajustar sus modelos con los datos no estructurados.

Gobernanza e innovación van de la mano. Si realmente está innovando para proporcionar autoservicio de datos, entonces el gobierno debe estar en su lugar para que pueda realizar el autoservicio. Desde la perspectiva de los productos de datos, hacer que ese autoservicio de datos esté disponible es el primer elemento que debe priorizar.

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Gomstyn: ¿Cómo aborda el tercer desafío de correlacionar datos estructurados y no estructurados?

Nirmal: el escenario actual es que si tiene datos no estructurados en forma de documento, debe dividir o subdividir el documento en varias partes y almacenarlo como incorporaciones dentro de una base de datos vectorial.

El reto que se presenta es que se pierde precisión porque no se sabe dónde se están fragmentando los datos. Digamos que se partió o se cortó en medio de una tabla. Cuando recupera la tabla, está trayendo la mitad de la tabla y ha perdido la precisión de la misma.

¿Qué podemos hacer? No solo almacenamos los datos en una base de datos vectorial, sino que también tomamos los aspectos transaccionales de ese documento y los colocamos en una base de datos transaccional. Y cuando tiene una consulta en lenguaje natural, compara ambos lados para decir: ¿cómo puedo reunir los datos para obtener una mayor precisión y rendimiento? Ahí es donde entran en juego RAG SQL o Graph RAG: puede usarlos para obtener un mayor nivel de precisión. Ese es el objetivo de cerciorarse de que está correlacionando los datos entre la base de datos transaccional y lo que tiene en una base de datos vectorial.

Gomstyn: ¿Cuáles son las habilidades y competencias críticas que los líderes de TI deben desarrollar para gestionar eficazmente los datos no estructurados?

Nirmal: La ingeniería de datos es la pieza más importante en el lado de los datos no estructurados. En el lado estructurado, la ingeniería de datos es una disciplina bien organizada, pero en el lado no estructurado, realmente no ha despegado porque hay una enorme cantidad de datos.

Pero ahora, la gobernanza, la seguridad y todas esas cosas están entrando en el lado no estructurado de las cosas. Necesitamos ingenieros de datos que literalmente diseñen los datos, para que estén disponibles como pipelines de datos. Los necesitamos para crear productos de datos para datos no estructurados y hacer que el autoservicio esté disponible para todos los científicos de datos y todos los ingenieros. Las habilidades que los ingenieros de datos utilizan en el lado de los datos estructurados se pueden usar en el lado no estructurado; simplemente se aplicarán a una escala mucho, mucho mayor.

Gomstyn: ¿Cómo se mide el éxito de los proyectos piloto de datos no estructurados?

Nirmal: El verdadero retorno de la inversión se produce cuando hay valor para el usuario final en la empresa. Entonces, por ejemplo, llamo a mi compañía telefónica y un representante de atención al cliente está en la línea. Cuando hago una pregunta, deben buscar la respuesta antes de dármela.

Ahora, con la IA generativa, puedo hacerlo en línea. Puedo hacer una pregunta simple a un asistente o a un chatbot, que puede acceder a un formato de datos no estructurado, como un documento de factura. En 15 segundos, tengo una respuesta que resume mi factura o algo sobre mi cuenta. Mire el tiempo que ahorré. No necesitaba pasar 15 minutos esperando una llamada para que alguien respondiera. Lo tengo al alcance de la mano. La IA generativa me ha permitido eso como usuario final.

Se trata de la productividad, el ahorro de tiempo y la optimización que impulsa la IA generativa, especialmente en el lado de los datos no estructurados.

Esta entrevista fue editada y condensada para mayor claridad y duración.

Soluciones relacionadas
Software y soluciones de bases de datos

Utilice las soluciones de bases de datos de IBM para satisfacer las distintas necesidades de carga de trabajo en la nube híbrida.

Explore las soluciones de bases de datos
Base de datos nativa de la nube con IBM Db2

Explore IBM Db2, una base de datos relacional que ofrece alto rendimiento, escalabilidad y fiabilidad para almacenar y gestionar datos estructurados. Está disponible como SaaS en IBM Cloud o para autoalojamiento.

Descubra Db2
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Utilice las soluciones de bases de datos de IBM para satisfacer las distintas necesidades de carga de trabajo en la nube híbrida.

Explore las soluciones de bases de datos Descubra IBM Db2
Notas de pie de página