Una nueva clase de modelos de IA desafía el dominio de los sistemas de estilo GPT, prometiendo alternativas más rápidas, baratas y potencialmente más potentes.
Inception Labs, una startup fundada por investigadores de Stanford, lanzó recientemente Mercury, un modelo de lenguaje basado en la difusión (dLLM) que refina frases enteras a la vez, en lugar de predecir las palabras una por una. A diferencia de los modelos lingüísticos grandes (LLM) tradicionales, que utilizan un enfoque autorregresivo(generan una palabra a la vez, basándose en el texto anterior), los modelos de difusión mejoran el texto de forma iterativa, mediante el refinamiento.
“Los dLLM amplían la frontera de posibilidades”, Stefano Ermon, profesor de informática de la Universidad de Stanford y cofundador de Inception Labs, le dice a IBM Think. "Mercury proporciona una velocidad y eficiencia inigualables y, al aprovechar más computación en tiempo de prueba, los dLLM también establecerán el listón de la calidad y mejorarán la satisfacción general del cliente para las aplicaciones edge y empresariales".
El ingeniero de investigación de IBM,Benjamin Hoover ve lo que se avecina: "Es solo cuestión de dos o tres años antes de que la mayoría de la gente comience a usar modelos de difusión", dice. “Cuando vi el modelo de Inception Labs, me di cuenta de que esto sucederá más pronto de lo esperado”.
Los modelos de difusión no siguen las mismas reglas que la IA tradicional. Modelos autorregresivos como GPT construyen frases palabra por palabra, prediciendo un token a la vez. Si un modelo genera la frase “A quien corresponda”, predice “A”, luego “a quien”, luego “corresponda”, y así sucesivamente, un paso a la vez. Los modelos de difusión invierten el guión. En lugar de unir las piezas del texto de forma secuencial, comienzan con una versión aproximada y ruidosa de todo un pasaje y lo refinan en varios pasos. Piense en ello como un artista que hace un esbozo antes de refinar los detalles, en lugar de dibujar cada elemento en orden. Al considerar toda la oración de una vez, los modelos de difusión pueden generar respuestas más rápido, a menudo con más coherencia y precisión que los LLMs tradicionales.
Hoover ve la tecnología como una versión moderna de un concepto antiguo. "Los modelos de difusión son fundamentalmente mecanismos de corrección de errores", dice. "Funcionan empezando con una entrada ruidosa y eliminando gradualmente el ruido hasta llegar al resultado deseado".
Los modelos de difusión se han utilizado ampliamente en la generación de imágenes, con modelos como DALL·E, Stable Diffusion y Midjourney que refinan imágenes ruidosas en imágenes de alta calidad. Sin embargo, aplicar este enfoque al texto es más difícil porque el lenguaje requiere un estricto cumplimiento de la gramática y la sintaxis.
"Muchos intentos de aplicar modelos de difusión a la generación de texto han tenido dificultades en el pasado", dice Ermon. "Lo que permitió a Mercury tener éxito donde otros fracasaron son las innovaciones patentadas tanto en algoritmos de entrenamiento como de inferencia". A diferencia de las imágenes, que se pueden limpiar gradualmente hasta convertirlas en formas reconocibles, el lenguaje sigue reglas gramaticales rígidas que dificultan el refinamiento iterativo".
Hoover define Mercury de Inception Labs como un excelente ejemplo de cómo los modelos de difusión están cerrando la brecha. "Ese modelo demostró que la difusión podía valerse por sí misma y, de hecho, es más rápida y eficiente que los modelos autorregresivos comparables".
La eficiencia de los LLM basados en difusión podría revolucionar la implementación de la IA, especialmente en aplicaciones empresariales donde el coste y la velocidad importan. Los LLM tradicionales requieren una potencia informática sustancial, lo que los hace costosos de ejecutar. Los modelos de difusión prometen ofrecer un rendimiento similar o mejor a una fracción del coste. Los modelos de difusión suelen ser más eficaces porque refinan secuencias enteras en paralelo en lugar de generar cada palabra paso a paso como los LLM tradicionales, lo que reduce la sobrecarga computacional.
"Nuestros clientes y los primeros usuarios están desarrollando aplicaciones impulsadas por dLLM en áreas que incluyen atención al cliente, ventas y juegos", dice Ermon. "Están haciendo que sus aplicaciones sean más receptivas, más inteligentes y más baratas".
Hoover ve un impacto aún más amplio. “En este momento, la IA está limitada por el consumo de energía”, afirma. "Los modelos grandes consumen enormes cantidades de energía. Sin embargo, los modelos de difusión funcionan de manera diferente, lo que permite una eficiencia mucho mayor. A largo plazo, podríamos ver que los sistemas de IA basados en la difusión se ejecuten en hardware analógico, lo que reduciría drásticamente los costes de energía".
La informática analógica, que procesa la información utilizando señales eléctricas continuas en lugar de operaciones binarias, ha sido considerada durante mucho tiempo como una solución potencial al problema energético de la IA. Hoover cree que los modelos de difusión son especialmente adecuados para este enfoque.
"Estos modelos son inherentemente interpretables", dice. "Eso significa que podemos mapear sus cálculos internos directamente en circuitos analógicos, algo que es mucho más difícil de hacer con las arquitecturas tradicionales de deep learning".
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.