A medida que los modelos de razonamiento como o1 de OpenAI, DeepSeek-R1 y Gemini 2.5 de Google compiten por los mejores puntos de referencia de inteligencia de IA, las empresas que buscan integrar la IA son cada vez más cautelosas con algo llamado "inflación de modelos", el fenómeno por el cual los modelos se vuelven innecesariamente grandes o complejos, empujando hacia arriba costos computacionales y el tiempo de entrenamiento del modelo, y disminuyendo la velocidad a la que pueden proporcionar las respuestas que las empresas necesitan.
O1 y DeepSeek-R1 de OpenAI utilizan el razonamiento de la cadena de pensamiento (CoT) para dividir problemas complejos en pasos, logrando un rendimiento sin precedentes y una mayor precisión que los modelos anteriores. Pero CoT también exige recursos computacionales sustanciales durante la inferencia, lo que conduce a resultados largos y mayor latencia elevada, afirma Volkmar Uhlig, vicepresidente y responsable de cartera de infraestructuras de IA en IBM, en una entrevista con IBM Think.
Ingrese una nueva clase de técnicas de ingeniería de instrucciones, descritas en varios artículos nuevos, que van desde el átomo de pensamiento (AoT) hasta la cadena de borrador (CoD), buscando aumentar la eficiencia y precisión de CoT ayudando a los modelos a resolver problemas más rápidamente, reduciendo así los costos y la latencia.
El científico de IA y fundador de una startup, Lance Elliott, ve las nuevas ramas de la cadena de pensamiento como variaciones en el kit de herramientas de un ingeniero de instrucción. “Su kit de herramientas de trabajo manual típico podría tener un martillo normal, ese sería CoT”, le dice a IBM Think. “AoT sería similar a usar un martillo especializado para situaciones que implican cortar y ajustar paneles de yeso. Podrías usar un martillo normal para trabajar en paneles de yeso, pero sería aconsejable usar un martillo para paneles de yeso si tuvieras uno y supieras cómo usarlo correctamente".
Vyoma Gajjar, arquitecto técnico de soluciones de IA en IBM, ve potencial en estos nuevos primos de CoT, especialmente para las empresas que "buscan formas más rentables de dar instrucción a los modelos pequeños a obtener respuestas precisas para sus casos de uso específicos", dice.
A diferencia de la cadena de pensamiento, que resuelve problemas complejos dividiéndolos en pasos secuenciales detallados, AoT utiliza una estrategia de divide y vencerás. Específicamente, AoT divide los pasos de un problema en "preguntas atómicas" que se procesan en paralelo, como explican los autores de un artículo de la Universidad de Ciencias de Hong Kong y la Universidad Renmin de China, y luego reúne las soluciones individuales para llegar a una respuesta final .
AoT puede funcionar como un entorno independiente y como una mejora de plug-in. Cuando los autores utilizaron AoT con GPT-4o mini de OpenAI, superaron varios modelos de razonamiento en seis puntos de referencia de referencia, incluidos o3-mini en un 3.4 % y DeepSeek-R1 en un 10.6 % en el conjunto de datos de HotpotQA.
Gajjar ve prometedor en AoT para aplicaciones empresariales que buscan equilibrar el rendimiento con el mantenimiento de un perfil de costos determinado. "Las tareas separadas se ejecutan en paralelo, y luego dejas que estas tareas, o 'átomos', hablen entre sí, para obtener la solución más precisa, como un electrón habla con un protón", dice en una entrevista con IBM Think.
Los autores del artículo confirman que AoT alcanza "un rendimiento competitivo a costos computacionales significativamente más bajos en comparación con los métodos existentes", y agregan que "esta eficiencia mejorada se puede atribuir a nuestra representación del estado atómico que conserva solo la información necesaria y elimina los cálculos redundantes".
Sin embargo, AoT no funciona bien para todos los casos de uso. Elliott, el científico de IA, dice que es más probable que AoT sea útil "cuando se usa IA generativa para derivar pruebas matemáticas, producir código de programación y para tareas de razonamiento altamente estructuradas". Y sería menos probable que mejorara la eficiencia con tareas de escritura creativa y entablar conversaciones, dice.
Mientras tanto, el prompting de cadena de borrador aborda el cuello de botella que puede ocurrir cuando los modelos de razonamiento producen pasos extensos y muy detallados que aumentan la latencia. Este fenómeno representa una diferencia clave entre los modelos de razonamiento y los humanos, que tienden a “confiar en borradores concisos o notas abreviadas para capturar insights esenciales sin elaboración innecesaria”, escriben los autores de Zoom Communications en un nuevo artículo sobre CoD.
“El tema de la latencia a menudo se ha pasado por alto”, escriben los autores del artículo. Sin embargo, para muchas aplicaciones en tiempo real es fundamental tener una baja latencia y mantener al mismo tiempo respuestas de alta calidad.
Con las instrucciones de CoD, se alienta a un LLM a producir una explicación concisa a medida que razona para llegar a una respuesta. Por ejemplo, la instrucción de control de CoT decía: “Piense paso a paso para responder la siguiente pregunta. Devuelve la respuesta al final de la respuesta después de un separador ####”. Por el contrario, la instrucción de CoD instruyó al modelo para que "Think paso a paso, pero solo mantenga un borrador mínimo para cada paso de pensamiento, con 5 palabras como máximo. Devuelva la respuesta al final de la respuesta después de un separador”.
Utilizando ChatGPT-4o de OpenAI y Claude 3.5 Sonnet de Anthropic, los investigadores descubrieron que CoD igualaba o superaba a CoT en precisión mientras usaba un 92,4 % menos de tokens, lo que reducía el costo y la latencia en diversas tareas de razonamiento.
"Estamos en un mundo completamente nuevo de exploración algorítmica", dice Uhlig de IBM. “Si entrena las instrucciones de manera diferente, puede reducir drásticamente la cantidad de tokens. Este es un siguiente paso muy natural”.
Si bien siguen apareciendo muchas técnicas de ingeniería de instrucciones, una llamada "esqueleto de pensamiento" (SoT) se destaca por combinar elementos tanto del átomo de pensamiento como de la cadena de borrador. Los autores de un artículo que propone la técnica dicen que estaban motivados por "el proceso de escritura y pensamiento de los humanos". Las instrucciones de SoT guían al LLM para generar el esqueleto de una respuesta y luego completan el contenido de cada punto del esqueleto en paralelo.
Utilizando esqueleto de pensamiento, los autores de la Universidad de Tsinghua en China y Microsoft Investigación pudieron acelerar el funcionamiento de varios LLM, así como mejorar la precisión de las respuestas en varias categorías. "Mostramos la viabilidad de la decodificación paralela de LLM listos para usar sin ningún cambio en su modelo, sistema o hardware", escriben.
Por ejemplo, los investigadores hicieron la pregunta al modelo: "¿Cuáles son las estrategias más efectivas para la resolución de conflictos en el lugar de trabajo?" Mediante las indicaciones de SoT, los autores redujeron la latencia de 22 segundos a 12 segundos (una aceleración de 1.83x) con Claude, y de 43 segundos a 16 segundos (una aceleración de 2.69x) con Vicuna 33B V1.3.
En última instancia, ninguna de las técnicas de ingeniería de instrucciones funcionará para todos los desafíos; la tarea en cuestión determinará la opción más eficiente en el "kit de herramientas del ingeniero de instrucciones", dice Elliott. “Saber cómo funciona la IA generativa tras bambalinas es muy ventajoso”, explica. “Es como conducir un automóvil. No necesariamente necesita conocer los intrincados detalles de cómo funciona un motor o una transmisión, pero al menos estar familiarizado con algunos principios clave puede contribuir en gran medida a manejar mejor un automóvil. Estás mejor preparado para situaciones como carreteras heladas, carreteras mojadas, conducir en carreteras montañosas y manejar curvas estrechas”.
Descubra cómo los directores ejecutivos (CEO) pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.
Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
IBM® Granite es nuestra familia de modelos abiertos de IA, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.