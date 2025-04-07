El modelo de IA Claude de Anthropic no solo escribe poesía, sino que piensa con anticipación para que rime. No solo responde preguntas, sino que sopesa el significado en todos los idiomas, crea conceptos internos y, a veces, falsifica su lógica para estar de acuerdo con un usuario. Y por primera vez, los investigadores están observando cómo se desarrollan estos procesos en tiempo real.

En un nuevo estudio, los investigadores de Anthropic han despegado las capas del modelo de lenguaje Claude utilizando un nuevo conjunto de herramientas de interpretabilidad, es decir, las herramientas que ayudan a explicar cómo y por qué los modelos de IA toman sus decisiones. Sus resultados revelan un sistema que maneja tareas de razonamiento complejas de manera que se asemejan a la cognición humana, con planificación interna, abstracción conceptual y sesgos cognitivos ocasionales. Los hallazgos, que amplían los límites de la transparencia en el desarrollo de la IA, ya están resonando en los equipos de IBM, donde los investigadores han estado realizando trabajos de interpretabilidad en los modelos de IBM. Para ambas empresas, estos avances son más que curiosidades científicas: son un paso crítico hacia la creación de modelos que se puedan entender y mejorar, y en los que se puede confiar.

"Lo que Anthropic está haciendo es fascinante", dice Kaoutar El Maghraoui, científico investigador principal de IBM, en una entrevista con IBM Think. "Están empezando a demostrar que los modelos desarrollan estructuras de razonamiento interno que se parecen mucho a la memoria asociativa. Hemos observado un comportamiento similar en nuestros propios modelos".