Los modelos de difusión desafían a GPT a medida que surge la IA de próxima generación

Parte posterior de la cabeza de una persona mirando la pantalla del ordenador mientras programa

Autor

Sascha Brodsky

Staff Writer

IBM

Una nueva clase de modelos de IA desafía el dominio de los sistemas de estilo GPT, prometiendo alternativas más rápidas, baratas y potencialmente más potentes.

Inception Labs, una startup fundada por investigadores de Stanford, lanzó recientemente Mercury, un modelo de lenguaje basado en la difusión (dLLM) que refina frases enteras a la vez, en lugar de predecir las palabras una por una. A diferencia de los modelos lingüísticos grandes (LLM) tradicionales, que utilizan un enfoque autorregresivo(generan una palabra a la vez, basándose en el texto anterior), los modelos de difusión mejoran el texto de forma iterativa, mediante el refinamiento.

“Los dLLM amplían la frontera de posibilidades”, Stefano Ermon, profesor de informática de la Universidad de Stanford y cofundador de Inception Labs, le dice a IBM Think. "Mercury proporciona una velocidad y eficiencia inigualables y, al aprovechar más computación en tiempo de prueba, los dLLM también establecerán el listón de la calidad y mejorarán la satisfacción general del cliente para las aplicaciones edge y empresariales".

El ingeniero de investigación de IBM,Benjamin Hoover ve lo que se avecina: "Es solo cuestión de dos o tres años antes de que la mayoría de la gente comience a usar modelos de difusión", dice. “Cuando vi el modelo de Inception Labs, me di cuenta de que esto sucederá más pronto de lo esperado”.

La ventaja del modelo de difusión

Los modelos de difusión no siguen las mismas reglas que la IA tradicional. Modelos autorregresivos como GPT construyen frases palabra por palabra, prediciendo un token a la vez. Si un modelo genera la frase “A quien corresponda”, predice “A”, luego “a quien”, luego “corresponda”, y así sucesivamente, un paso a la vez. Los modelos de difusión invierten el guión. En lugar de unir las piezas del texto de forma secuencial, comienzan con una versión aproximada y ruidosa de todo un pasaje y lo refinan en varios pasos. Piense en ello como un artista que hace un esbozo antes de refinar los detalles, en lugar de dibujar cada elemento en orden. Al considerar toda la oración de una vez, los modelos de difusión pueden generar respuestas más rápido, a menudo con más coherencia y precisión que los LLMs tradicionales.

Hoover ve la tecnología como una versión moderna de un concepto antiguo. "Los modelos de difusión son fundamentalmente mecanismos de corrección de errores", dice. "Funcionan empezando con una entrada ruidosa y eliminando gradualmente el ruido hasta llegar al resultado deseado".

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Romper la barrera del idioma

Los modelos de difusión se han utilizado ampliamente en la generación de imágenes, con modelos como DALL·E, Stable Diffusion y Midjourney que refinan imágenes ruidosas en imágenes de alta calidad. Sin embargo, aplicar este enfoque al texto es más difícil porque el lenguaje requiere un estricto cumplimiento de la gramática y la sintaxis.

"Muchos intentos de aplicar modelos de difusión a la generación de texto han tenido dificultades en el pasado", dice Ermon. "Lo que permitió a Mercury tener éxito donde otros fracasaron son las innovaciones patentadas tanto en algoritmos de entrenamiento como de inferencia". A diferencia de las imágenes, que se pueden limpiar gradualmente hasta convertirlas en formas reconocibles, el lenguaje sigue reglas gramaticales rígidas que dificultan el refinamiento iterativo".

Hoover define Mercury de Inception Labs como un excelente ejemplo de cómo los modelos de difusión están cerrando la brecha. "Ese modelo demostró que la difusión podía valerse por sí misma y, de hecho, es más rápida y eficiente que los modelos autorregresivos comparables".

El futuro de la difusión

La eficiencia de los LLM basados en difusión podría revolucionar la implementación de la IA, especialmente en aplicaciones empresariales donde el coste y la velocidad importan. Los LLM tradicionales requieren una potencia informática sustancial, lo que los hace costosos de ejecutar. Los modelos de difusión prometen ofrecer un rendimiento similar o mejor a una fracción del coste. Los modelos de difusión suelen ser más eficaces porque refinan secuencias enteras en paralelo en lugar de generar cada palabra paso a paso como los LLM tradicionales, lo que reduce la sobrecarga computacional.

"Nuestros clientes y los primeros usuarios están desarrollando aplicaciones impulsadas por dLLM en áreas que incluyen atención al cliente, ventas y juegos", dice Ermon. "Están haciendo que sus aplicaciones sean más receptivas, más inteligentes y más baratas".

Hoover ve un impacto aún más amplio. “En este momento, la IA está limitada por el consumo de energía”, afirma. "Los modelos grandes consumen enormes cantidades de energía. Sin embargo, los modelos de difusión funcionan de manera diferente, lo que permite una eficiencia mucho mayor. A largo plazo, podríamos ver que los sistemas de IA basados en la difusión se ejecuten en hardware analógico, lo que reduciría drásticamente los costes de energía".

La informática analógica, que procesa la información utilizando señales eléctricas continuas en lugar de operaciones binarias, ha sido considerada durante mucho tiempo como una solución potencial al problema energético de la IA. Hoover cree que los modelos de difusión son especialmente adecuados para este enfoque.

"Estos modelos son inherentemente interpretables", dice. "Eso significa que podemos mapear sus cálculos internos directamente en circuitos analógicos, algo que es mucho más difícil de hacer con las arquitecturas tradicionales de deep learning".

AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo