Los modelos de difusión desafían a la GPT a medida que surge la IA de próxima generación

Parte posterior de la cabeza de una persona mirando la pantalla de la computadora mientras programa

Autor

Sascha Brodsky

Staff Writer

IBM

Una nueva clase de modelos de IA está desafiando el dominio de los sistemas de estilo GPT, prometiendo alternativas más rápidas, baratas y potencialmente más potentes.

Inception Labs, una empresa emergente fundada por investigadores de Stanford, lanzó recientemente Mercury, un modelo de lenguaje basado en la difusión (dLLM) que refina frases enteras a la vez, en lugar de predecir palabras una por una. A diferencia de los modelos de lenguaje de gran tamaño (LLM) tradicionales, que utilizan un enfoque autorregresivo(que genera una palabra a la vez, en función del texto anterior), los modelos de difusión mejoran el texto de forma iterativa, a través del refinamiento.

"Los dLLMs amplían la frontera de posibilidades", dice Stefano Ermon, profesor de informática en la Universidad de Stanford y cofundador de Inception Labs, a IBM Think. "Mercury proporciona una velocidad y eficiencia inigualables y, al aprovechar más cómputo en tiempo de prueba, los dLLM también establecerán el estándar de calidad y mejorarán la satisfacción general del cliente para las aplicaciones empresariales y edge".

El ingeniero de investigación de IBM,Benjamin Hoover, ve la evidencia: "Es solo cuestión de dos o tres años antes de que la mayoría de las personas comiencen a usar modelos de difusión", dice. “Cuando vi el modelo de Inception Labs, me di cuenta de que esto sucederá más temprano que tarde”.

La ventaja del modelo de difusión

Los modelos de difusión no siguen las mismas reglas que la IA tradicional. Modelos autorregresivos como GPT construyen frases palabra por palabra, prediciendo un token a la vez. Si un modelo está generando la frase “A quién puede interesar”, predice “A”, luego “a quién”, luego “eso”, y así sucesivamente, un paso a la vez. Los modelos de difusión invierten el guión. En lugar de armar el texto de manera secuencial, comienzan con una versión preliminar y desordenada de todo el pasaje y la refinan en varios pasos. Think de ello como un artista que esboza un esbozo antes de afinar los detalles, en lugar de dibujar cada elemento en orden. Al considerar toda la oración de una vez, los modelos de difusión pueden generar respuestas más rápido, a menudo con más coherencia y precisión que los LLMs tradicionales.

Hoover considera que esta tecnología es una versión moderna de un concepto antiguo. "Los modelos de difusión son fundamentalmente mecanismos de corrección de errores", dice. “Funcionan comenzando con una entrada ruidosa y eliminando gradualmente el ruido hasta llegar a la salida deseada”.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Romper la barrera del idioma

Los modelos de difusión se han utilizado ampliamente en la generación de imágenes, con modelos como DALL·E, Stable Diffusion y Midjourney que refinan imágenes ruidosas en imágenes de alta calidad. Sin embargo, aplicar este enfoque al texto es más difícil porque el lenguaje requiere un estricto cumplimiento de la gramática y la sintaxis.

"Muchos intentos de aplicar modelos de difusión a la generación de texto han tenido dificultades en el pasado", dice Ermon. "Lo que permitió a Mercury tener éxito donde otros fracasaron son las innovaciones patentadas tanto en algoritmos de entrenamiento como de inferencia". A diferencia de las imágenes, que se pueden limpiar gradualmente en formas reconocibles, el lenguaje sigue reglas gramaticales rígidas que hacen que el refinamiento iterativo sea más complicado”.

Hoover señala a Mercury de Inception Labs como un excelente ejemplo de cómo los modelos de difusión están cerrando la brecha. "Ese modelo demostró que la difusión podía sostenerse por sí misma y, en realidad, es más rápida y eficiente que los modelos autorregresivos comparables".

El futuro de la difusión

La eficiencia de los LLM basados en difusión podría revolucionar el despliegue de la IA, especialmente en aplicaciones empresariales donde el costo y la velocidad importan. Los LLM tradicionales requieren una potencia informática sustancial, lo que los hace costosos de ejecutar. Los modelos de difusión prometen ofrecer un desempeño similar o mejor a una fracción del costo. Los modelos de difusión suelen ser más eficientes porque refinan secuencias completas en paralelo, en lugar de generar cada palabra paso a paso como los LLM tradicionales, lo que reduce la sobrecarga computacional.

"Nuestros clientes y los primeros usuarios están desarrollando aplicaciones impulsadas por dLLM en áreas que incluyen atención al cliente, ventas y juegos", dice Ermon. "Están haciendo que sus aplicaciones sean más receptivas, más inteligentes y más baratas".

Hoover ve un impacto aún más amplio. “En este momento, la IA está limitada por el consumo de energía”, afirma. “Los modelos grandes utilizan enormes cantidades de energía. Sin embargo, los modelos de difusión funcionan de manera diferente, lo que permite una eficiencia mucho mayor. A largo plazo, podríamos ver sistemas de IA basados en la difusión funcionando en hardware analógico, lo que reduciría drásticamente los costos de energía.

La computación analógica, que procesa la información utilizando señales eléctricas continuas en lugar de operaciones binarias, se ha promocionado durante mucho tiempo como una posible solución al problema energético de la IA. Hoover cree que los modelos de difusión son particularmente adecuados para este enfoque.

"Estos modelos son inherentemente interpretables", dice. “Eso significa que podemos mapear sus cálculos internos directamente en circuitos analógicos, algo que es mucho más difícil de hacer con las arquitecturas tradicionales de aprendizaje profundo”.

AI Academy

Conviértase en un experto en IA

Obtenga el conocimiento para priorizar las inversiones en IA que impulsan el crecimiento del negocio. Comience hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo