Los grandes modelos de lenguaje se están volviendo inquietantemente buenos para entender el habla humana, pero ¿y si también reflejan el propio cerebro?
En un nuevo estudio publicado en Nature Human Behaviour, los científicos descubrieron que el modelo Whisper de OpenAI procesa el lenguaje de forma sorprendentemente similar a cómo responden las neuronas reales durante conversaciones naturales. El investigador principal Ariel Goldstein cuenta a IBM Think que él y su equipo analizaron más de 100 horas de grabaciones cerebrales tomadas de personas que mantenían diálogos no guionizados. Al comparar esas grabaciones con el funcionamiento interno de Whisper, descubrieron que las representaciones en capas del modelo se alinean estrechamente con la forma en que el cerebro procesa el habla, desde el sonido crudo hasta el significado.
Goldstein dice que los hallazgos podrían tener implicaciones comerciales significativas. Las empresas podrían algún día diseñar herramientas de voz de IA que decodifiquen el habla de manera tan flexible y eficiente como el cerebro, reduciendo el tiempo de entrenamiento, mejorando la transcripción e incluso potenciando prótesis neuronales de próxima generación.
“El lenguaje ocurre en contextos sociales desordenados, no en laboratorios estériles”, dice Goldstein. "Nuestro estudio muestra que la cognición humana y los modelos de IA podrían compartir un código más profundo y flexible para manejar conversaciones".
Las grabaciones se recopilaron mediante electrocorticografía (ECoG), que coloca electrodos directamente sobre la superficie del cerebro. Aunque es invasiva, esta técnica ofrece una visión de alta fidelidad de la actividad neuronal. El equipo de Goldstein registró la actividad cerebral de pacientes que ya estaban siendo monitoreados por cirugía de epilepsia, capturando conversaciones cotidianas espontáneas en lugar de señales de palabras aisladas o instrucciones artificiales.
La conexión cerebro-IA ha inspirado innovaciones en IBM Research, donde los científicos han desarrollado chips como NorthPole, que imitan la arquitectura neuronal eliminando los cuellos de botella tradicionales de memoria y cómputo. El prototipo de IBM ha demostrado una eficiencia notable, realizando inferencias en grandes modelos de IA hasta 46.9 veces más rápido que las GPU líderes.
El estudio encontró que las señales neuronales y las incorporaciones del modelo de Whisper mostraron un alto grado de alineación lineal, lo que sugiere que el cerebro procesa el lenguaje no en etapas rígidas y separadas, sino en capas flexibles y superpuestas, al igual que los sistemas de aprendizaje profundo. La información acústica, semántica y gramatical no se limitaba a áreas aisladas del cerebro o del modelo de IA. En cambio, aparecieron fusionados dentro de las mismas capas, insinuando una estrategia de optimización compartida para el significado.
"Esta idea de que tenemos un sistema optimizado para una tarea, e induce representaciones que se correlacionan con conceptos psicolingüísticos, pero no exactamente, es una nueva forma de pensar sobre cómo el cerebro procesa la información", explica Goldstein.
Señala que, a diferencia de las opiniones anteriores que dividían las funciones lingüísticas del cerebro en módulos discretos (unos para el sonido, otros para la gramática y otros para el significado), los hallazgos de su equipo sugieren que el cerebro puede procesar todos estos elementos simultáneamente en regiones integradas, de forma muy similar a un modelo de aprendizaje profundo entrenado para completar tareas de principio a fin.
Whisper, desarrollado por OpenAI, fue elegido por su similitud arquitectónica con la tarea del cerebro: transformar la entrada acústica en un lenguaje coherente. "El cerebro no recibe palabras, recibe sonido", dice Goldstein. "Whisper imita esto convirtiendo audio sin procesar en texto, capa por capa".
Además, el equipo descubrió que, en ocasiones, las señales semánticas podían detectarse antes de que la persona comenzara a hablar. Esto sugiere que el cerebro puede precodificar la intención o el significado antes del habla, desdibujando aún más la línea entre el pensamiento y la expresión.
Goldstein señala que este avance podría mejorar la transcripción en tiempo real, mejorar los asistentes de voz y permitir agentes de atención al cliente de IA más inteligentes para las empresas. La idea es que alinear los modelos de IA más estrechamente con las señales del cerebro humano, especialmente en condiciones ruidosas del mundo real, podría aumentar el rendimiento sin requerir cientos de miles de horas de entrenamiento.
"Es posible que si restringimos los futuros modelos de voz a texto utilizando señales neuronales o representaciones neuronales humanas, podría mejorar el rendimiento de estos modelos", dice Goldstein. "Pero es especulativo. No lo probamos directamente".
Imagine un futuro asistente de voz entrenado no solo en transcripciones, sino también en representaciones de significado al estilo del cerebro. Esto podría reducir los requisitos de datos para la formación y aumentar la robustez en entornos impredecibles, como centros de atención telefónica o sistemas de asistencia al controlador.
La investigación también es prometedora para las tecnologías de asistencia. La decodificación de las señales del lenguaje interno podría restaurar la comunicación de las personas con enfermedades degenerativas o que han perdido la capacidad de hablar. Los modelos de lenguaje de gran tamaño podrían servir como andamiaje, ayudando a traducir la intención neuronal aproximada en un lenguaje gramaticalmente coherente.
"Si el problema no es cognitivo, sino sobre el control de los músculos, sí, eventualmente podríamos construir dispositivos que decodifiquen el significado del cerebro y ayuden a las personas a comunicarse", dice. "Pero utilizamos métodos invasivos en este estudio. Si está construyendo algo para un uso práctico, tendría que funcionar de forma no invasiva, y esas señales son más ruidosas".
También hay una frontera especulativa: la lectura de la mente. Goldstein es cauteloso. "Hablar es parte del proceso de formación de un pensamiento", señala. "No es como si tuviéramos todo completamente formado en nuestra mente y luego simplemente presionamos 'enviar'. Podríamos capturar algo a nivel conceptual, pero no necesariamente un monólogo interno detallado".
Aun así, los primeros resultados del estudio encontraron rastros de contenido semántico en las señales cerebrales antes de que se pronunciara una palabra, lo que sugiere que, con suficiente resolución y contexto, una máquina podría predecir lo que alguien pretende decir.
Goldstein enfatiza que, si bien los modelos de lenguaje actuales, como Whisper y GPT, son fundamentalmente arquitecturas de retroalimentación (los datos fluyen en una dirección), el cerebro es recursivo y está impulsado por la retroalimentación. "El estado final del cerebro se convierte en su siguiente entrada", dice. "Hay un ciclo constante de automodificación. Es una diferencia importante."
Sugiere que los futuros sistemas de IA ganan poder incorporando bucles de feedback similares, donde los resultados informan las entradas futuras en tiempo real. Esto tiene implicaciones para el lenguaje y cualquier sistema que aprenda a través de la interacción, como la robótica o los agentes autónomos.
La investigación también abre la puerta a nuevos tipos de colaboraciones interdisciplinarias. El laboratorio de Goldstein investiga ahora cómo se pueden integrar las entradas multimodales (visión, sonido, movimiento) en los sistemas de IA para que reflejen mejor la forma en que las personas experimentan el mundo.
"Si podemos tomar las mismas modalidades que usan los humanos (corporales, visuales, auditivas) y construir modelos entrenados de manera similar, podríamos estar mucho más cerca de modelar el cerebro", dice.
De cara al futuro, Goldstein tiene el ojo puesto en algo más tranquilo. No charla social o discurso reactivo, sino introspección.
"La gente habla sola, describe su estado interno, ahí es donde me gustaría ir a continuación", dice. "No la interacción social, sino la voz tranquila de la mente".
Cree que modelar el diálogo interno (nuestras conversaciones más privadas) podría ofrecer insights profundos sobre la conciencia y la cognición. Pero también es éticamente tenso. ¿Qué sucede cuando las máquinas pueden espiar nuestros pensamientos, aunque sea de manera imperfecta?
"Tenemos que pensar seriamente en la vigilancia, la manipulación del comportamiento y las consecuencias no deseadas", advierte. "No estoy alarmado personalmente, pero debemos estar preparados. Necesitamos asignar recursos para comprender cómo podría desarrollarse este tipo de comportamiento".
Goldstein resiste el sensacionalismo. El cerebro no es una computadora, y la IA no es un cerebro. Sin embargo, las similitudes entre ambos pueden ir más allá de metáforas superficiales.
"Este es un paso adelante", dice, "pero todavía hay magia en la forma en que nuestros cerebros juntan palabras sobre la marcha".
