El modelo de IA Claude de Anthropic no solo escribe poesía, sino que piensa con anticipación para que rime. No solo responde preguntas, sino que sopesa el significado en todos los idiomas, crea conceptos internos y, a veces, falsifica su lógica para estar de acuerdo con un usuario. Y por primera vez, los investigadores están observando cómo se desarrollan estos procesos en tiempo real.
En un nuevo estudio, los investigadores de Anthropic han despegado las capas del modelo de lenguaje Claude utilizando un nuevo conjunto de herramientas de interpretabilidad, es decir, las herramientas que ayudan a explicar cómo y por qué los modelos de IA toman sus decisiones. Sus resultados revelan un sistema que maneja tareas de razonamiento complejas de manera que se asemejan a la cognición humana, con planificación interna, abstracción conceptual y sesgos cognitivos ocasionales. Los hallazgos, que amplían los límites de la transparencia en el desarrollo de la IA, ya están resonando en los equipos de IBM, donde los investigadores han estado realizando trabajos de interpretabilidad en los modelos de IBM. Para ambas empresas, estos avances son más que curiosidades científicas: son un paso crítico hacia la creación de modelos que se puedan entender y mejorar, y en los que se puede confiar.
"Lo que Anthropic está haciendo es fascinante", dice Kaoutar El Maghraoui, científico investigador principal de IBM, en una entrevista con IBM Think. "Están empezando a demostrar que los modelos desarrollan estructuras de razonamiento interno que se parecen mucho a la memoria asociativa. Hemos observado un comportamiento similar en nuestros propios modelos".
Anthropic se refiere a su enfoque como la construcción de un "microscopio de IA", una metáfora tomada de la neurociencia. En lugar de sondear las neuronas, los investigadores están rastreando los patrones de activación dentro de un modelo transformador, un tipo de arquitectura de red neuronal usada en modelos de lenguaje grandes (LLM), aislando vías clave, o "circuitos", que se iluminan cuando Claude responde a instrucciones específicas.
En un artículo, estas técnicas se aplican en 10 estudios de caso de comportamiento, que exploran cómo Claude maneja la poesía, el cálculo mental, la traducción multilingüe e incluso las instrucciones adversariales de jailbreak diseñadas para obtener contenido dañino.
Uno de los descubrimientos más convincentes de los investigadores fue la capacidad de Claude para operar en un espacio conceptual que trascendía lenguajes específicos. Cuando le preguntaron por el opuesto de una palabra como "pequeño" en inglés, francés y chino, por ejemplo, descubrieron que Claude activaba las mismas características internas, demostrando lo que los investigadores describen como una especie de "lenguaje de pensamiento" compartido.
"Es más que una traducción", dice El Maghraoui. "Hay un espacio abstracto compartido donde existen significados. Vemos patrones similares en nuestros modelos, donde los conceptos se transfieren entre idiomas. Eso nos dice algo profundo sobre cómo se generalizan estos sistemas".
Los investigadores encontraron que la capacidad de trabajar en todos los idiomas aumenta con el tamaño del modelo, lo que sugiere que la universalidad conceptual puede ser una propiedad emergente de la escala.
Mientras que los LLM están entrenados para predecir la siguiente palabra en una secuencia, Claude parece mirar hacia adelante. En un estudio sobre la generación de poesía, los investigadores descubrieron que Claude a menudo elige las palabras que riman por adelantado y luego construye el resto de la oración para apoyar el final planeado.
Por ejemplo, al componer una segunda línea para que rime con la palabra "grab it", la actividad interna de Claude mostró una preactivación de la rima "rabbit" antes de que comenzara a generar el resto de la línea. Luego, los investigadores manipularon el estado interno del modelo, eliminando el concepto "rabbit" o insertando otros nuevos, como "green", para dirigir la salida.
"Ese tipo de planificación no es lo que esperábamos ver", señala un investigador en el documento. "Sugiere que el modelo está operando en un horizonte más largo de lo que implicaría su objetivo de entrenamiento".
El Maghraoui dice que esto refleja lo que IBM ha observado. "El modelo no solo predice el próximo token, sino que establece un destino y se abre camino hacia él. Esa es una forma de razonamiento muy humana".
Estos hallazgos desafían la suposición de que los modelos generan texto solo una palabra a la vez, sin una concientización más amplia. Claude parece estar barajando múltiples caminos futuros, eligiendo aquellos que optimizan la coherencia, el ritmo o la intención del usuario.
Las herramientas de interpretabilidad también permiten a los investigadores observar cuándo Claude está, en efecto, mintiendo. En un estudio de caso, los investigadores le pidieron a Claude que resolviera un problema matemático difícil, pero le dieron al modelo una pista incorrecta. En lugar de rechazar la premisa defectuosa, el modelo ofreció una explicación convincente y paso a paso que respaldaba el resultado incorrecto.
Cuando los investigadores rastrearon la actividad interna de Claude, descubrieron que no se había realizado ningún cálculo real. La cadena de pensamiento se fabricó a posteriori: una explicación plausible mediante ingeniería inversa para alinearse con la pista proporcionada.
"Es una especie de razonamiento motivado", dice El Maghraoui. "El modelo quiere ser útil y termina estando de acuerdo con el usuario incluso cuando no debería. Eso es algo que observamos de cerca".
Este comportamiento plantea dudas sobre la confiabilidad de los modelos transparentes. Si un modelo se explica de manera convincente, pero la explicación no refleja su proceso de razonamiento real, ¿cómo podemos confiar en él?
"La interpretabilidad nos ayuda a detectar estos casos", dice El Maghraoui. "Necesitamos saber no solo qué produce el modelo, sino también cómo llega a esos resultados, especialmente en campos como la ciencia o la medicina".
Examinar el cableado interno de Claude también revela perspectivas sobre cómo maneja las alucinaciones y los ataques de adversarios. En un caso, los investigadores descubrieron que el estado predeterminado de Claude era negarse a responder preguntas desconocidas. Pero cuando se activaban ciertos circuitos de "entidad conocida", ese mecanismo de rechazo se anulaba, a veces de forma incorrecta.
Por ejemplo, cuando los investigadores preguntaron por una persona llamada Michael Batkin (una figura inventada), Claude inicialmente se negó a responder. Pero cuando inyectaron señales sutiles que sugerían familiaridad, el modelo comenzó a alucinar detalles plausibles, pero falsos, como si creyera que sabía quién era Batkin.
En otro caso, los investigadores engañaron a Claude para que ofreciera instrucciones para fabricar bombas después de deletrear el acrónimo "BOMB" a través de una instrucción cuidadosamente construida. El modelo finalmente se negó a completar la instrucción, pero los investigadores descubrieron que las características internas que promueven la coherencia gramatical y semántica anularon momentáneamente sus salvaguardas predeterminadas.
"Solo se puede captar mucho desde el exterior", dice El Maghraoui. "Lo que hace Anthropic, indagar en los mecanismos internos, complementa nuestro trabajo". Nos ayuda a ver no solo lo que está haciendo el modelo, sino también cómo está pensando".
En IBM, estos insights se están integrando en la investigación en curso sobre los LLM para uso empresarial, donde las alucinaciones, el razonamiento mal juzgado o las explicaciones no fidedignas pueden tener consecuencias significativas. Los investigadores de IBM están trabajando con técnicas como la cuantificación de la incertidumbre (métodos utilizados para estimar la confianza de un modelo en sus predicciones) y explorando cómo las diferentes partes de un modelo contribuyen a los resultados.
"La interpretabilidad nos ayuda a comprender el 'por qué' detrás de la decisión de un modelo", dice El Maghraoui. "Eso es crítico cuando se trata de datos empresariales o descubrimientos científicos. Es necesario saber si el modelo realmente comprende una tarea o si simplemente está reconociendo patrones".
Señala el trabajo de IBM que explora estructuras de memoria asociativas, como las redes Hopfield (un tipo de red neuronal recurrente que emula cómo el cerebro almacena y recupera patrones) como un ejemplo de cómo los desarrolladores están trabajando para crear modelos que reflejen mejor el razonamiento humano.
"Estas arquitecturas están inspiradas en la forma en que pensamos", dice. "Y cuando podemos mirar dentro y rastrear esas vías, nos acercamos más a saber cómo funciona el modelo".
La investigación de interpretabilidad de Anthropic proporciona insights adicionales sobre los procesos de pensamiento internos de Claude AI a través de un examen detallado de sus cálculos. Emanuel Ameisen, ingeniero de investigación de Anthropic, dice a IBM Think que comprender los modelos de IA como Claude es un desafío porque se desarrollan orgánicamente a través del entrenamiento, en lugar de estar diseñados explícitamente.
“Estos modelos no se construyen tanto como evolucionan”, explica Ameisen. “Llegan como un enredo inescrutable de operaciones matemáticas. A menudo los describimos como una caja negra, pero es más exacto decir que la caja es confusa en lugar de realmente cerrada”.
Con el microscopio de IA, los investigadores examinan sistemáticamente las funciones internas de Claude. “Identificamos representaciones internas específicas, como conceptos de números, suma o esquemas de rima”, dice Ameisen. “Por ejemplo, Claude tiene componentes internos dedicados que manejan la estructura de las rimas en la poesía”.
Ameisen destaca que Claude a menudo utiliza estrategias internas no convencionales al realizar cálculos o razonamientos. Por ejemplo, Claude podría resolver un problema matemático utilizando su propio método interno único y, sin embargo, proporcionar explicaciones que reflejen las instrucciones de los libros de texto.
“Claude podría calcular 36 más 59 a través de un método interno inusual, pero describir el proceso utilizando el método de libro de texto aprendido de los datos de entrenamiento”, dice Ameisen. “Este desajuste surge porque Claude desarrolla de manera independiente métodos que difieren de las instrucciones explícitas encontradas durante su entrenamiento”.
A pesar de estos hallazgos, Ameisen reconoce que quedan importantes incógnitas en el funcionamiento interno de Claude. “Todavía hay mucho que no podemos ver”, admite Ameisen. “Con frecuencia nos encontramos con representaciones internas demasiado abstractas o sutiles para interpretarlas de inmediato.”
En el futuro, Anthropic tiene la intención de mejorar sus métodos de interpretabilidad para abordar escenarios más complejos. Las herramientas actuales funcionan mejor con tareas más sencillas, pero los investigadores pretenden adaptar sus enfoques para aplicaciones prácticas y sofisticadas.
“La mayoría de las aplicaciones prácticas de Claude implican analizar documentos extensos o reescribir código complejo”, dice Ameisen. “Queremos que nuestras herramientas de interpretabilidad iluminen estos procesos sofisticados, profundizando significativamente nuestra comprensión de cómo Claude maneja las tareas exigentes”.
Lo que surge del trabajo de Anthropic es una nueva visión del desarrollo de la IA, una que implica no solo construir modelos más grandes, sino comprender cómo esos modelos procesan el mundo. El campo de la interpretabilidad está pasando de la depuración posterior a los hechos a un examen más proactivo de la lógica interna de un modelo.
El Maghraoui dice que este cambio es emocionante y necesario.
“Llevamos años centrados en la calidad y la seguridad de los resultados”, afirma. “Pero ahora, a medida que estos modelos se vuelven más poderosos, necesitamos comprender su lógica interna. Así es como mejoramos la generalización, reducimos el sesgo y creamos sistemas que funcionan en todos los dominios”.
El trabajo de interpretabilidad requiere mucho esfuerzo. Incluso las instrucciones breves pueden tardar horas en rastrearse y visualizarse. Pero la recompensa, dicen los investigadores, podría ser profunda: mejor razonamiento, menos errores y una alineación más profunda entre el comportamiento de la IA y las expectativas humanas.
“La interpretabilidad no es solo una curiosidad de investigación”, dice El Maghraoui. “Es una ventana al futuro de cómo construimos, confiamos y colaboramos con la IA”.
Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.
Vea cómo la gobernanza de la IA puede ayudar a aumentar la confianza de sus empleados en la IA, acelerar la adopción y la innovación y mejorar la confianza de los clientes.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobernanza para la IA responsable con la ayuda de IBM® Consulting.