A medida que modelos de razonamiento como o1 de OpenAI, DeepSeek-R1 y Gemini 2.5 de Google compiten por los mejores puntos de referencia de inteligencia de IA, las empresas que buscan integrar la IA desconfían cada vez más de algo llamado "inflación de modelos", el fenómeno por el que los modelos se vuelven innecesariamente grandes o complejos, empujando hacia arriba los costes computacionales y el tiempo de entrenamiento de los modelos y disminuyendo la velocidad a la que pueden proporcionar las respuestas que necesitan las empresas.
o1 de OpenAI y DeepSeek-R1 utilizan el razonamiento de la cadena de pensamiento (CoT) para dividir problemas complejos en pasos, logrando un rendimiento sin precedentes y una mayor precisión que los modelos anteriores. Pero CoT también exige importantes recursos computacionales durante la inferencia, lo que da lugar a resultados prolongados y una mayor latencia, afirma Volkmar Uhlig, vicepresidente y responsable del portfolio de infraestructura de IA de IBM, en una entrevista con IBM Think.
Introduzca una nueva clase de técnicas de prompting, descritas en varios artículos nuevos, que van desde el átomo de pensamiento (AoT) hasta la cadena de borrador (CoD), con el objetivo de aumentar la eficacia y la precisión del CoT ayudando a los modelos a resolver los problemas más rápidamente y, por lo tanto, reducir los costes y la latencia.
El científico de IA y fundador de una startup Lance Elliott ve las nuevas ramificaciones de la cadena de pensamiento como variaciones en un kit de herramientas de un ingeniero de instrucciones. "Su kit de herramientas de trabajo manual típico puede tener un martillo normal, que sería CoT", le dice a IBM Think. "AoT sería similar a usar un martillo especializado utilizado para situaciones que implican cortar y ajustar paneles de yeso. Podría usar un martillo normal para trabajar en paneles de yeso, pero sería aconsejable usar un martillo para paneles de yeso si tuviera uno y supiera cómo usarlo correctamente".
Vyoma Gajjar, arquitecta de soluciones técnicas de IA en IBM, ve potencial en estos nuevos primos CoT, especialmente para las empresas que "buscan formas más rentables de dar instrucción a los modelos pequeños a obtener respuestas precisas para sus casos de uso específicos", afirma.
A diferencia de la cadena de pensamiento, que resuelve problemas complejos dividiéndolos en pasos secuenciales detallados, AoT utiliza una estrategia de divide y vencerás. Específicamente, AoT divide los pasos de un problema en "preguntas atómicas" que se procesan en paralelo, como explican los autores de un artículo de la Universidad de Ciencias de Hong Kong y la Universidad Renmin de China, y luego ensambla las soluciones individuales para llegar a una respuesta final .
AoT puede funcionar como marco independiente y como mejora de complementos. Cuando los autores utilizaron AoT con GPT-4o mini de OpenAI, superó varios modelos de razonamiento en seis puntos de referencia, incluidos o3-mini en un 3,4 % y DeepSeek-R1 en un 10,6 % en el conjunto de datos HotpotQA.
Gajjar ve potencial en AoT para aplicaciones empresariales que buscan equilibrar el rendimiento con el mantenimiento de un perfil de costes determinado. "Las tareas separadas se ejecutan en paralelo, y luego dejas que estas tareas, o 'átomos', hablen entre sí, para obtener la solución más precisa, como un electrón habla con un protón", dice en una entrevista con IBM Think..
Los autores del artículo confirman que AoT alcanza "un rendimiento competitivo a costes computacionales significativamente más bajos en comparación con los métodos existentes", y añaden que "esta mayor eficiencia puede atribuirse a nuestra representación del estado atómico que conserva solo la información necesaria y elimina los cálculos redundantes".
Sin embargo, AoT no funciona bien para todos los casos de uso. Elliott, el científico de IA, dice que es más probable que AoT sea útil "cuando se utiliza IA generativa para derivar pruebas matemáticas, producir código de programación y para tareas de razonamiento altamente estructuradas". Y sería menos probable que mejorara la eficiencia con tareas de escritura creativa y entablar una conversación, dice.
Mientras tanto, la cadena de prompting aborda el cuello de botella que puede producirse cuando los modelos de razonamiento generan pasos prolijos y muy detallados que aumentan la latencia. Este fenómeno representa una diferencia clave entre los modelos de razonamiento y los humanos, que tienden a "confiar en borradores concisos o notas abreviadas para capturar conocimientos esenciales sin elaboración innecesaria", escriben los autores de Zoom Communications en un nuevo artículo sobre CoD.
“La cuestión de la latencia a menudo se ha pasado por alto”, escriben los autores del artículo. "Sin embargo, es crucial que muchas aplicaciones en tiempo real tengan baja latencia y mantengan respuestas de alta calidad".
Con el prompting de CoD, se anima a un LLM a producir una explicación concisa mientras razona su camino hacia una respuesta. Por ejemplo, la instrucción de control de CoT decía: “Pensar paso a paso para responder la siguiente pregunta. Devolver la respuesta al final de la respuesta después de un separador ####.” Por el contrario, la instrucción de CoD le indicaba al modelo: “Pensar paso a paso, pero mantener solo un borrador mínimo para cada paso de pensamiento, con cinco palabras como máximo. Devolver la respuesta al final de la respuesta, tras un separador".
Con ChatGPT-4o de OpenAI y Claude 3.5 Sonnet de Anthropic, los investigadores descubrieron que CoD igualaba o superaba a CoT en precisión y utilizaba un 92,4 % menos de tokens, lo que reducía el coste y la latencia en varias tareas de razonamiento.
"Estamos en un mundo completamente nuevo de exploración algorítmica", dice Uhlig de IBM. "Si se entrena de forma diferente, se puede reducir drásticamente el número de tokens. Este es un paso muy natural".
Si bien siguen apareciendo muchas técnicas de prompting, una llamada “esqueleto de pensamiento” (SoT) se destaca por combinar elementos tanto del átomo de pensamiento como de la cadena de borrador. Los autores de un artículo que propone la técnica dicen que estaban motivados por "el proceso de escritura y pensamiento de los humanos". El prompting de SoT guía al LLM para generar el esqueleto de una respuesta y, a continuación, completan el contenido de cada punto del esqueleto en paralelo.
Utilizando el esqueleto del pensamiento, los autores de la Universidad de Tsinghua en China y Microsoft investigación pudieron acelerar el funcionamiento de varios LLM, así como mejorar la precisión de las respuestas en varias categorías. "Mostramos la viabilidad de la decodificación paralela de LLM estándar sin ningún cambio en su modelo, sistema o hardware", escriben.
Por ejemplo, los investigadores hicieron la pregunta al modelo: "¿Cuáles son las estrategias más eficaces para la resolución de conflictos en el lugar de trabajo?" Utilizando las indicaciones de SoT, los autores redujeron la latencia de 22 segundos a 12 segundos (una aceleración de 1,83x) con Claude, y de 43 segundos a 16 segundos (una aceleración de 2,69x) con Vicuna 33B V1.3.
Ninguna de las técnicas de prompting funcionará para cada reto en última instancia; la tarea a realizar determinará la opción más eficiente en el “kit de herramientas del ingeniero de prompts”, dice Elliott. "Saber cómo funciona la IA generativa bajo el capó es muy ventajoso", explica. “Es como conducir un coche. No es necesario conocer todos los detalles técnicos del funcionamiento de un motor o una transmisión, pero al menos estar familiarizado con algunos principios básicos puede ser de gran ayuda para conducir mejor un automóvil. Está mejor preparado para situaciones como carreteras heladas, carreteras mojadas, conducción en carreteras montañosas y curvas cerradas".
