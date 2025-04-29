Gracias a ChatGPT y a decenas de otros chatbots creados sobre modelos fundacionales, casi todo el mundo conoce los modelos de lenguaje de gran tamaño (LLM). Pero, ¿qué pasa con los modelos de bases de datos de gran tamaño (LDM)?
"Los LDM son modelos ajustados para derivar conocimiento de grandes conjuntos de datos y flujos de transacciones en lugar del lenguaje y el texto humanos, que son el dominio de los LLM y los chatbot", dijo Ric Lewis, vicepresidente sénior de infraestructura de IBM, en IBM 2025 Investor Day.
Aunque los LLMs se entrenan con datos públicos como libros, artículos, Wikipedia y otras muchas fuentes, sus materiales de formación normalmente no incluyen la gran cantidad de datos que existen en las empresas. De hecho, solo el 1 % de los datos empresariales se utilizan actualmente en los modelos de lenguaje de gran tamaño.
Los LDM, por el contrario, se entrenan con registros de transacciones, información de productos, datos de relaciones con clientes, registros de formación y registros de empleados, entre otras fuentes de datos empresariales. Como resultado, las empresas pueden utilizar los LDM para descubrir el significado del 99 % de los datos sin explotar que se encuentran en sus bases de datos mediante preguntas conversacionales, en un proceso conocido como búsqueda semántica. La búsqueda semántica va más allá de la coincidencia de palabras clave para comprender el significado y el contexto detrás de la consulta de búsqueda de un usuario.
"Los LDM representan una nueva y emocionante forma de aprovechar los datos integrados en las aplicaciones empresariales y los flujos de transacciones para extraer nuevos conocimientos y nuevo valor para la empresa", afirma Lewis en una entrevista con IBM Think. "Aunque los LDM acaban de surgir, somos optimistas sobre su potencial para ser utilizados para informar a las aplicaciones agénticas y ayudar a las empresas a obtener mejores resultados", explica, y añade que estos modelos ya se están adoptando para infundir la IA en los procesos transaccionales.
Pensemos, por ejemplo, en un negocio minorista que busca identificar clientes cuyo poder adquisitivo medio e historial de compras reflejen los de una compradora llamada Claire, que ha entrado recientemente en la tienda y ha expresado un gran interés por un nuevo producto de belleza. Tradicionalmente, el científico de datos del minorista comenzaría por definir el pipeline: los procesos para convertir datos sin procesar en respuestas útiles a la pregunta comercial específica en consideración. A continuación, formularían la consulta de la base de datos con términos muy específicos, como "Buscar a todos los clientes de entre 20 y 40 años que vivan en Nueva York y que hayan gastado al menos 1000 dólares en productos de belleza el año pasado".
A continuación, el científico de datos extraía los datos necesarios, los cargaba en otra plataforma y, en un periodo de semanas o meses, determinaba qué clientes se parecían a Claire en su base de datos.
Dado el extenso proceso que implica la consulta tradicional de bases de datos, "hay una gran cantidad de datos almacenados en los mainframes de las empresas que no suelen ser el objetivo de la IA generativa y de los que las empresas no obtienen información alguna", explica Catherine Wu, directora del programa Db2 en el laboratorio de IBM en Silicon Valley, a IBM Think.
Parte de esto se debe a los problemas de coste y seguridad asociados con el traslado de datos a un entorno externo. "Tenemos clientes que nos dicen que solo mover datos representa entre el 30 y el 40 % de sus gastos de TI", dice Wu. "Además, una vez que los datos salen de su mainframe, no pueden rastrear a dónde van, por lo que es una gran preocupación para los clientes".
Los LDM, por el contrario, permiten a los usuarios buscar en bases de datos y obtener respuestas de forma mucho más rápida y sencilla, independientemente de si la base de datos se encuentra en el entorno local, en la nube o en una combinación de ambos. Así, el minorista del ejemplo anterior podría consultar la base de datos y formular esta petición: "Enumera los 100 principales clientes, como Claire". Y poco tiempo después, cualquier persona con formación básica en SQL podía extraer esa información sin tener que mover los datos a ninguna parte, afirma Wu. IBM lanzó su primer producto de base de datos utilizando un gran modelo de base de datos en 2022 llamado SQL Data Insights (SQL DI), que forma parte de la base de datos Db2 para z/OS ubicada en los mainframes IBM® Z, que impulsan más del 70 % de las transacciones financieras del mundo por valor.
Como dijo Kate Soule, directora de gestión de productos técnicos de Granite, en un episodio reciente del podcast Mixture of Experts, los LLM "a veces pueden resultar excesivos".
"Los requisitos de formación y ajuste de los LDM se pueden cumplir con una infraestructura diferente a la de los LLM", afirma Lewis de IBM. "No se necesitan granjas masivas de GPU para abordar los problemas que la mayoría de las empresas intentan resolver. En comparación con todos los datos que podrían utilizarse para entrenar un LLM, una base de datos empresarial de transacciones es relativamente pequeña". Pero, dice Lewis, los datos específicos de la empresa pueden crear "modelos específicos para ofrecer un resultado específico de forma más rentable y, a menudo, más eficaz".
Con SQL DI de IBM, cada valor dentro de una columna de base de datos, independientemente de su tipo de datos, se traduce en un token de texto. "En consecuencia, el modelo percibe cada registro de la base de datos como una bolsa desordenada de palabras en una oración similar al inglés donde cada token mantiene una relación igual con los demás, independientemente de su posición en el registro", dice Akiko Hoshikawa, ingeniero distinguido de IBM. A continuación, SQL DI deduce los valores significativos de la base de datos basándose en los valores de las columnas circundantes, tanto dentro como entre las filas de la tabla. Con el modelo entrenado de esta forma, casi cualquiera puede ejecutar una consulta de IA sobre datos relacionales para detectar y hacer coincidir datos semánticamente similares directamente dentro de la base de datos.
Aunque muchas empresas están explorando los LDM como prueba de concepto, algunas empresas de seguros y comercio minorista ya están utilizando estas herramientas para acelerar el proceso de extracción de valor de sus bases de datos.
Thomas Baumann, evangelista de datos de Swiss Mobiliar, la compañía de seguros más antigua de Suiza, utiliza SQL DI de IBM en varias áreas de la empresa. Baumann comenzó a utilizar SQL DI para ayudar a la empresa a adaptar mejor las cotizaciones de seguros de automóviles para aumentar las ventas. Cuando un vendedor interactuaba con un posible nuevo titular de una póliza de seguro, podía introducir una cotización y la LDM extraía los casos anteriores más similares para determinar la probabilidad de que el cliente la aceptara.
"Luego, el usuario puede cambiar algunos de los parámetros, como disminuir los deducibles u ofrecer un descuento más agresivo, y luego recalcular las nuevas probabilidades de éxito", dice Baumann en una entrevista con IBM Think. “Las cotizaciones son mucho más sofisticadas y adaptadas a cada cliente que antes”.
Al utilizar SQL DI de IBM para el producto de seguros de automóviles de Swiss Mobiliar, la empresa entrenó el modelo con aproximadamente 15 millones de registros de datos de cotizaciones de seguros de automóviles, y cada registro contenía varias decenas de atributos para cada registro, como datos demográficos, datos del vehículo y precio. Baumann dice que el personal de ventas descubrió que podían hacer cotizaciones más científicas comprobando las probabilidades de varias cotizaciones candidatas antes de seleccionar una.
Como resultado, mejoraron la tasa de cierre de las ventas de seguros en un 7 % en el transcurso de seis meses, una mejora que, según Baumann, habría llevado aproximadamente dos años sin utilizar LDM. Basándose en el éxito de este piloto, Swiss Mobiliar utiliza ahora LDM para todos sus productos de seguros (con la excepción de los seguros de vida), desde los seguros de edificios hasta los seguros domésticos.
"Los dos beneficios principales de SQL DI son que permite pasar muy rápidamente de la idea a la preproducción", afirma Baumann. "Además, no es necesario trasladar los datos de una plataforma a otra".
Más allá de los seguros, el equipo SQL DI de IBM también está trabajando con varios minoristas de alimentos en EE. UU. y Europa que están interesados en utilizar LDM para ofrecer a los clientes experiencias de compra más personalizadas. Un cliente podría, por ejemplo, tener un tipo de cereal en la mano y ejecutar una consulta semántica en la base de datos para obtener otros cereales de sabor similar pero con un perfil nutricional más saludable. Los LDM utilizados para hacer sugerencias son como "recomendaciones de Amazon o Netflix más sofisticadas y personalizadas", dice Hoshikawa.
Más allá de las aplicaciones orientadas al cliente, las empresas ya están implementando LDM en muchas áreas B2B, como la detección de anomalías y la detección del fraude en tiempo real. Cualquier empresa que emita contratos, por ejemplo, podría utilizar un LDM para identificar rápidamente los contratos que se salen de lo normal, afirma Hoshikawa de IBM.
Mientras tanto, los LDM pueden potenciar una detección del fraude en tiempo real más sofisticada. Además de identificar transacciones que no siguen patrones típicos, los LDM pueden consultar bases de datos para identificar registros que incluyen varios atributos asociados con comportamientos sospechosos, como empresas que no tienen informes de Better Business Bureau o que carecen de direcciones físicas.
Lewis cree que a los LLM y LDM les seguirán muchos otros modelos especializados. "Creemos que los LDM, al igual que los LLM, son una herramienta valiosa para permitir una ola de aplicaciones agénticas y ayudar a impulsar mejores resultados", dice. “Pero no esperamos que siempre se utilicen de forma aislada. De hecho, creemos que el escenario ideal es incorporar los LDM en el modelo de datos empresariales y combinarlos con LLM y otros modelos adaptados para generar un nuevo valor masivo a escala para las empresas y para la sociedad".
Del mismo modo, Lewis no espera que una empresa u organización domine necesariamente. "No asuma que será una empresa, o la empresa que tenga más servidores y más GPU, la que vaya a desarrollar la navaja suiza de los modelos", afirma Lewis. "No lo creo. Del mismo modo que creo que podemos obtener la mayor cantidad de conocimiento posible aprovechando los conocimientos especializados de expertos en diferentes campos, creo que la capacidad de combinar LLM, LDM y futuras oleadas de modelos diseñados específicamente para este fin dará lugar a conocimientos realmente novedosos y a resultados óptimos".
Simplifique el acceso a los datos y automatice su gobierno. Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costes de sus cargas de trabajo y el escalado de IA y analítica, con todos sus datos, en cualquier lugar.
Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.
Acceda a nuestra guía para aprender a utilizar las bases de datos adecuadas para aplicaciones, análisis e IA generativa.
Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de análisis e IA.
Obtenga una visión única del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y análisis.
Utilice las soluciones de bases de datos de IBM para satisfacer las distintas necesidades de carga de trabajo en la nube híbrida.
Explore IBM Db2, una base de datos relacional que ofrece alto rendimiento, escalabilidad y fiabilidad para almacenar y gestionar datos estructurados. Está disponible como SaaS en IBM Cloud o para autoalojamiento.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.
Utilice las soluciones de bases de datos de IBM para satisfacer las distintas necesidades de carga de trabajo en la nube híbrida.