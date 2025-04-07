El modelo de IA de Anthropic no solo escribe poesía, sino que piensa en el futuro para hacer que rime. No solo responde a preguntas, sino que sopesa el significado en todos los idiomas, construye conceptos internos y, a veces, falsifica su lógica para estar de acuerdo con un usuario. Y por primera vez, los investigadores están viendo cómo se desarrollan estos procesos en tiempo real.
En un nuevo estudio, los investigadores de Anthropic han desvelado las capas del modelo lingüístico de Claude utilizando un novedoso conjunto de herramientas de interpretabilidad, es decir, las herramientas que ayudan a explicar cómo y por qué los modelos de IA toman sus decisiones. Sus resultados revelan un sistema que maneja tareas de razonamiento complejas de manera que se asemejan a la cognición humana, con planificación interna, abstracción conceptual y sesgos cognitivos ocasionales. Los hallazgos, que amplían los límites de la transparencia en el desarrollo de la IA, ya están resonando en los equipos de IBM, donde los investigadores han estado realizando trabajos de interpretabilidad en los modelos de IBM. Para ambas empresas, estos avances son más que curiosidades científicas: son un paso crítico hacia la construcción de modelos que puedan ser entendidos, fiables y mejorados.
"Lo que está haciendo Anthropic es fascinante", afirma Kaoutar El Maghraoui, científico investigador principal de IBM, en una entrevista con IBM Think. "Están empezando a demostrar que los modelos desarrollan estructuras de razonamiento interno que se parecen mucho a la memoria asociativa. Hemos observado un comportamiento similar en nuestros propios modelos".
Anthropic se refiere a su enfoque como la construcción de un "microscopio de IA", una metáfora tomada de la neurociencia. En lugar de sondear las neuronas, los investigadores están rastreando los patrones de activación dentro de un modelo transformador, un tipo de arquitectura de red neuronal utilizada en grandes modelos de lenguaje (LLM), aislando vías clave, o "circuitos", que se iluminan cuando Claude responde a instrucciones específicas.
En un artículo, estas técnicas se aplican en diez casos de éxito de comportamiento, explorando cómo Claude maneja la poesía, el cálculo mental, la traducción multilingüe e incluso las instrucciones de jailbreak adversarios diseñados para provocar contenido dañino.
Uno de los descubrimientos más convincentes de los investigadores fue la capacidad de Claude para operar en un espacio conceptual que trascendía lenguajes específicos. Cuando le preguntaron por el opuesto de una palabra como "pequeño" en inglés, francés y chino, por ejemplo, descubrieron que Claude activaba las mismas características internas, demostrando lo que los investigadores describen como una especie de "lenguaje del pensamiento" compartido.
"Es más que una traducción", dice El Maghraoui. "Hay un espacio abstracto compartido donde existen significados. Vemos patrones similares en nuestros modelos, donde los conceptos se transfieren entre idiomas. Eso nos dice algo profundo sobre cómo se generalizan estos sistemas".
Los investigadores descubrieron que la capacidad de trabajar en varios idiomas aumenta con el tamaño del modelo, lo que sugiere que la universalidad conceptual puede ser una propiedad emergente de la escala.
Mientras que los LLM están entrenados para predecir la siguiente palabra de una secuencia, Claude parece mirar hacia adelante. En un estudio sobre la generación de poesía, los investigadores descubrieron que Claude a menudo elige las palabras que riman de antemano y luego construye el resto de la oración para apoyar el final planeado.
Por ejemplo, al componer una segunda línea para que rime con "grab it", la actividad interna de Claude mostró una activación de la rima "rabbit" antes de que comenzara a generar el resto de la línea. A continuación, los investigadores manipularon el estado interno del modelo, eliminando el concepto de "rabbit" o insertando otros nuevos, como "green", para dirigir el resultado.
"Ese tipo de planificación no es lo que esperábamos ver", señala un investigador en el artículo. "Sugiere que el modelo está operando en un horizonte más largo de lo que implicaría su objetivo de entrenamiento".
El Maghraoui dice que esto refleja lo que IBM ha observado. "El modelo no solo predice el próximo token, sino que establece un destino y se abre camino hacia él. Es una forma de razonamiento muy humana".
Estos hallazgos desafían la suposición de que los modelos generan texto solo una palabra a la vez, sin una conciencia más amplia. Claude parece combinar múltiples caminos futuros, eligiendo aquellos que optimizan la coherencia, el ritmo o la intención del usuario.
Las herramientas de interpretabilidad también permiten a los investigadores observar cuándo Claude está mintiendo. En un caso de éxito, los investigadores pidieron a Claude que resolviera un problema matemático difícil, pero proporcionaron al modelo una pista incorrecta. En lugar de rechazar la premisa defectuosa, el modelo ofreció una explicación convincente y paso a paso que respaldaba el resultado incorrecto.
Cuando los investigadores rastrearon la actividad interna de Claude, descubrieron que no se había llevado a cabo ningún cálculo real. La cadena de pensamiento se construyó a posteriori: una explicación plausible mediante ingeniería inversa para alinearse con la pista proporcionada.
"Es una especie de razonamiento motivado", dice El Maghraoui. "El modelo quiere ser útil y acaba dando la razón al usuario incluso cuando no debería. Eso es algo que observamos de cerca".
Este comportamiento plantea dudas sobre la fiabilidad de los modelos transparentes. Si un modelo se explica de forma convincente, pero la explicación no refleja su proceso de razonamiento real, ¿cómo podemos confiar en él?
"La interpretabilidad nos ayuda a detectar estos casos", dice El Maghraoui. "Necesitamos saber no solo qué produce el modelo, sino cómo llega a esos resultados, especialmente en campos como la ciencia o la medicina".
Examinar el cableado interno de Claude también revela conocimientos sobre cómo maneja las alucinaciones y los ataques adversarios. En un caso, los investigadores descubrieron que el estado predeterminado de Claude era negarse a responder preguntas desconocidas. Pero cuando se activaban ciertos circuitos de "entidad conocida", ese mecanismo de rechazo se anulaba, a veces de forma incorrecta.
Por ejemplo, cuando los investigadores preguntaron por una persona llamada Michael Batkin (una figura inventada), Claude inicialmente se negó a responder. Pero cuando inyectaron señales sutiles que sugerían familiaridad, el modelo comenzó a alucinar detalles plausibles pero falsos, como si creyera que sabía quién era Batkin.
En otro caso, los investigadores engañaron a Claude para que ofreciera instrucciones para fabricar bombas después de deletrear el acrónimo "BOMB" mediante una instrucción cuidadosamente elaborada. El modelo finalmente se negó a completar la instrucción, pero los investigadores descubrieron que las características internas que promueven la coherencia gramatical y semántica anularon momentáneamente sus salvaguardas predeterminadas.
"No se puede captar mucho desde el exterior", dice El Maghraoui. "Lo que está haciendo Anthropic, espiar los mecanismos internos, complementa nuestro trabajo. Nos ayuda a ver no solo lo que está haciendo el modelo, sino también cómo está pensando".
En IBM, estos conocimientos se están integrando en la investigación en curso sobre LLM para uso empresarial, donde las alucinaciones, el razonamiento mal juzgado o las explicaciones infieles pueden tener consecuencias significativas. Los investigadores de IBM están trabajando con técnicas como la cuantificación de la incertidumbre (métodos utilizados para estimar la confianza de un modelo en sus predicciones) y explorar cómo las diferentes partes de un modelo contribuyen a los resultados.
"La interpretabilidad nos ayuda a comprender el 'por qué' detrás de la decisión de un modelo", dice El Maghraoui. "Eso es crítico cuando se trata de datos empresariales o descubrimientos científicos. Necesita saber si el modelo realmente entiende una tarea o si solo es una coincidencia de patrones".
Ella señala el trabajo de IBM que explora las estructuras de memoria asociativa, como las redes de Hopfield, un tipo de red neuronal recurrente que emula cómo el cerebro almacena y recupera patrones, como un ejemplo de cómo los desarrolladores están trabajando para crear modelos que reflejen mejor el razonamiento humano.
"Estas arquitecturas están inspiradas en nuestra forma de pensar", dice. "Y cuando podemos mirar dentro y rastrear esas vías, nos acercamos más a saber cómo funciona el modelo".
La investigación sobre interpretabilidad de Anthropic proporciona conocimiento adicional sobre los procesos de pensamiento internos de Claude IA a través de un examen detallado de sus cálculos. Emanuel Ameisen, ingeniero investigador de Anthropic, explica a IBM Think que comprender modelos de IA como Claude es un reto porque se desarrollan orgánicamente a través del entrenamiento, en lugar de estar diseñados explícitamente.
"Estos modelos no se construyen tanto como evolucionan", explica Ameisen. "Llegan como un lío inescrutable de operaciones matemáticas. A menudo los describimos como una caja negra, pero es más exacto decir que la caja es confusa que realmente cerrada".
Utilizando el microscopio de IA, los investigadores examinan sistemáticamente las funciones internas de Claude. "Identificamos representaciones internas específicas, como conceptos de números, sumas o esquemas de rima", dice Ameisen. "Por ejemplo, Claude tiene componentes internos dedicados que gestionan la estructura de las rimas en la poesía".
Ameisen destaca que Claude suele utilizar estrategias internas no convencionales al realizar cálculos o razonamientos. Por ejemplo, Claude podría resolver un problema matemático utilizando su propio método interno único y, sin embargo, proporcionar explicaciones que reflejen las instrucciones de los libros de texto.
"Claude podría calcular 36 más 59 mediante un método interno inusual y, sin embargo, describir el proceso utilizando el método de los libros de texto aprendido a partir de los datos de entrenamiento", dice Ameisen. "Este desajuste surge porque Claude desarrolla de forma independiente métodos que difieren de las instrucciones explícitas encontradas durante su entrenamiento".
A pesar de estos hallazgos, Ameisen reconoce que siguen existiendo importantes incógnitas en el funcionamiento interno de Claude. "Todavía hay muchas cosas que no podemos ver", admite Ameisen. "Normalmente nos encontramos con representaciones internas demasiado abstractas o sutiles para interpretarlas de inmediato".
En el futuro, Anthropic tiene la intención de mejorar sus métodos de interpretabilidad para aborde escenarios más complejos. Las herramientas actuales funcionan mejor con tareas más sencillas, pero los investigadores pretenden adaptar sus enfoques para aplicaciones prácticas y sofisticadas.
"La mayoría de las aplicaciones prácticas de Claude implican analizar documentos extensos o reescribir código complejo", dice Ameisen. "Queremos que nuestras herramientas de interpretabilidad iluminen estos sofisticados procesos, profundizando significativamente nuestra comprensión de cómo Claude gestiona tareas exigentes".
Lo que surge del trabajo de Anthropic es una nueva visión del desarrollo de la IA, una que implica no solo construir modelos más grandes, sino comprender cómo esos modelos procesan el mundo. El campo de la interpretabilidad está pasando de la depuración a posteriori a un examen más proactivo de la lógica interna de un modelo.
El Maghraoui dice que este cambio es emocionante y necesario.
"Llevamos años centrados en la calidad y la seguridad del resultado", afirma. "Pero ahora, a medida que estos modelos se vuelven más poderosos, necesitamos entender su lógica interna. Así es como mejoramos la generalización, reducimos el sesgo y construimos sistemas que funcionan en todos los dominios".
El trabajo de interpretabilidad requiere mucha mano de obra. Incluso las instrucciones cortas pueden tardar horas en rastrearse y visualizarse. Pero la recompensa, dicen los investigadores, podría ser profunda: mejor razonamiento, menos errores y una alineación más profunda entre el comportamiento de la IA y las expectativas humanas.
"La interpretabilidad no es solo una curiosidad de investigación", dice El Maghraoui. "Es una ventana al futuro de cómo construimos, confiamos y colaboramos con la IA".
Descubra los beneficios clave que se obtienen con el gobierno automatizado de la IA tanto para la IA generativa actual como para los modelos tradicionales de machine learning.
Conozca los nuevos retos de la IA generativa, la necesidad de gobernar los modelos de IA y ML y los pasos para crear un marco de IA fiable, transparente y explicable.
Entienda la importancia de establecer un proceso de evaluación defendible y de categorizar sistemáticamente cada caso de uso en el nivel de riesgo adecuado.
Lea sobre cómo impulsar prácticas éticas y conformes con la normativa con una cartera de productos de IA para modelos de IA generativa.
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.
Vea cómo el gobierno de la IA puede ayudar a aumentar la confianza de sus empleados en la misma, acelerar la adopción y la innovación y mejorar la confianza de los clientes.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.
Dirija, gestione y monitorice su IA con una única cartera para acelerar una IA responsable, transparente y explicable.