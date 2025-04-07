El modelo de IA de Anthropic no solo escribe poesía, sino que piensa en el futuro para hacer que rime. No solo responde a preguntas, sino que sopesa el significado en todos los idiomas, construye conceptos internos y, a veces, falsifica su lógica para estar de acuerdo con un usuario. Y por primera vez, los investigadores están viendo cómo se desarrollan estos procesos en tiempo real.

En un nuevo estudio, los investigadores de Anthropic han desvelado las capas del modelo lingüístico de Claude utilizando un novedoso conjunto de herramientas de interpretabilidad, es decir, las herramientas que ayudan a explicar cómo y por qué los modelos de IA toman sus decisiones. Sus resultados revelan un sistema que maneja tareas de razonamiento complejas de manera que se asemejan a la cognición humana, con planificación interna, abstracción conceptual y sesgos cognitivos ocasionales. Los hallazgos, que amplían los límites de la transparencia en el desarrollo de la IA, ya están resonando en los equipos de IBM, donde los investigadores han estado realizando trabajos de interpretabilidad en los modelos de IBM. Para ambas empresas, estos avances son más que curiosidades científicas: son un paso crítico hacia la construcción de modelos que puedan ser entendidos, fiables y mejorados.

"Lo que está haciendo Anthropic es fascinante", afirma Kaoutar El Maghraoui, científico investigador principal de IBM, en una entrevista con IBM Think. "Están empezando a demostrar que los modelos desarrollan estructuras de razonamiento interno que se parecen mucho a la memoria asociativa. Hemos observado un comportamiento similar en nuestros propios modelos".