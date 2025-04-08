Los grandes modelos lingüísticos están entendiendo cada vez más bien el habla humana, pero ¿y si también reflejan el propio cerebro?
En un nuevo estudio publicado en Nature Human Behaviour, los científicos descubrieron que el modelo Whisper de OpenAI procesa el lenguaje de manera sorprendentemente similar a cómo responden las neuronas reales durante las conversaciones naturales. El investigador principal Ariel Goldstein cuenta a IBM Think que él y su equipo analizaron más de 100 horas de grabaciones cerebrales tomadas de personas que mantenían diálogos no guionizados. Al comparar esas grabaciones con el funcionamiento interno de Whisper, descubrieron que las representaciones en capas del modelo se alinean estrechamente con la forma en que el cerebro procesa el habla, desde el sonido en bruto hasta el significado.
Goldstein afirma que los hallazgos podrían tener importantes implicaciones comerciales. Las empresas podrían diseñar algún día herramientas de voz con IA que decodifican el habla de forma tan flexible y eficiente como el cerebro, reduciendo el tiempo de entrenamiento, mejorando la transcripción e incluso alimentando prótesis neuronales de próxima generación.
"El lenguaje ocurre en contextos sociales desordenados, no en laboratorios estériles", dice Goldstein. "Nuestro estudio muestra que la cognición humana y los modelos de IA podrían compartir un código más profundo y flexible para manejar conversaciones".
Las grabaciones se recogieron mediante electrocorticografía (ECoG), que coloca electrodos directamente en la superficie del cerebro. Aunque invasiva, esta técnica ofrece una visión de alta fidelidad de la actividad neuronal. El equipo de Goldstein registró la actividad cerebral de pacientes que ya estaban siendo monitorizados para una cirugía de epilepsia, capturando conversaciones espontáneas y cotidianas en lugar de pistas de palabras aisladas o instrucciones artificiales.
La conexión cerebro-IA ha inspirado innovaciones en la investigación de IBM, donde los científicos han desarrollado chips como NorthPole, que imitan la arquitectura neuronal eliminando los cuellos de botella tradicionales de memoria y computación. El prototipo de IBM ha demostrado una eficiencia notable, realizando inferencias en grandes modelos de IA hasta 46,9 veces más rápido que las GPU líderes.
El estudio descubrió que las señales neuronales y las incrustaciones del modelo de Whisper mostraban un alto grado de alineación lineal, lo que sugiere que el cerebro procesa el lenguaje no en etapas rígidas y separadas, sino en capas flexibles y superpuestas, al igual que los sistemas de aprendizaje profundo. La información acústica, semántica y gramatical no se limitaba a zonas aisladas del cerebro o del modelo de IA. En cambio, aparecían fusionados dentro de las mismas capas, lo que insinuaba una estrategia de optimización compartida para el significado.
"Esta idea de que tenemos un sistema optimizado para una tarea, e induce representaciones que se correlacionan con conceptos psicolingüísticos, pero no exactamente, es una nueva forma de pensar sobre cómo el cerebro procesa la información", explica Goldstein.
Señala que, a diferencia de las visiones anteriores que dividían las funciones del lenguaje cerebral en módulos discretos; algunos para el sonido, otros para la gramática, otros para el significado; los hallazgos de su equipo sugieren que el cerebro puede procesar todo esto simultáneamente en regiones integradas, de forma similar a un modelo de deep learning entrenado para completar tareas de extremo a extremo.
Whisper, desarrollado por OpenAI, fue elegido por su similitud arquitectónica con la tarea del cerebro: transformar la entrada acústica en un lenguaje coherente. "El cerebro no recibe palabras, recibe sonidos", dice Goldstein. "Whisper imita esto convirtiendo el audio sin procesar en texto, capa por capa".
Además, el equipo descubrió que a veces podían detectarse señales semánticas antes de que una persona empezara realmente a hablar. Esto sugiere que el cerebro puede precodificar la intención o el significado antes del habla, difuminando aún más la línea entre pensamiento y expresión.
Goldstein señala que este avance podría mejorar la transcripción en tiempo real, mejorar los asistentes de voz y permitir agentes de servicio al cliente de IA más inteligentes para las empresas. La idea es que alinear los modelos de IA más estrechamente con las señales del cerebro humano, especialmente en condiciones ruidosas del mundo real, podría aumentar el rendimiento sin requerir cientos de miles de horas de entrenamiento.
"Es posible que si limitamos futuros modelos de reconocimiento de voz usando señales neuronales o representaciones neuronales humanas, se pueda mejorar el rendimiento de estos modelos", dice Goldstein. "Pero es especulativo. No lo probamos directamente".
Imagine un futuro asistente de voz entrenado no solo en transcripciones, sino en representaciones de significado al estilo del cerebro. Esto podría reducir los requisitos de datos para el entrenamiento y aumentar la solidez en entornos impredecibles, como los call center o los sistemas de asistencia al controlador.
La investigación también es prometedora para las tecnologías de asistencia. La decodificación de las señales del lenguaje interno podría restaurar la comunicación de las personas con enfermedades degenerativas o que han perdido la capacidad de hablar. Los grandes modelos lingüísticos podrían servir de andamiaje, ayudando a traducir la intención neuronal aproximada en un lenguaje gramaticalmente coherente.
"Si el problema no es cognitivo, sino sobre el control de los músculos, sí, eventualmente podríamos construir dispositivos que decodifiquen el significado del cerebro y ayuden a las personas a comunicarse", dice. "Pero en este estudio utilizamos métodos invasivos. Si estás construyendo algo para un uso práctico, tendría que funcionar de forma no invasiva, y esas señales son más ruidosas".
También hay una frontera especulativa: la lectura de la mente. Goldstein es cauteloso. "Hablar forma parte del proceso de formar un pensamiento", señala. "No es como si tuviéramos todo completamente formado en nuestra mente y luego simplemente pulsáramos 'enviar'. Podríamos capturar algo a nivel conceptual, pero no necesariamente un monólogo interno detallado".
Aun así, las primeras pruebas del estudio hallaron rastros de contenido semántico en las señales cerebrales antes de que se pronunciara una palabra, lo que sugiere que, con suficiente resolución y contexto, una máquina podría predecir lo que alguien pretende decir.
Goldstein hace hincapié en que, si bien los modelos de lenguaje actuales, como Whisper y GPT, son fundamentalmente arquitecturas de retroalimentación (los datos fluyen en una dirección), el cerebro es recursivo y se basa en la retroalimentación. "El estado final del cerebro se convierte en su siguiente entrada", dice. "Hay un bucle constante de automodificación. Es una diferencia importante."
Sugiere que los sistemas de IA del futuro ganen potencia incorporando bucles de feedback similares, en los que el resultado informa a las entradas futuras en tiempo real. Esto tiene implicaciones para el lenguaje y cualquier sistema que aprenda a través de la interacción, como la robótica o los agentes autónomos.
La investigación también abre la puerta a nuevos tipos de colaboraciones interdisciplinarias. El laboratorio de Goldstein ahora explora cómo las entradas multimodales; visión, sonido, movimiento; podrían integrarse en sistemas de IA que mejor reflejen cómo las personas experimentan el mundo.
"Si podemos tomar las mismas modalidades que usan los humanos (corporal, visual, auditiva) y construir modelos entrenados de manera similar, podríamos estar mucho más cerca de modelar el cerebro", dice.
Mirando hacia adelante, Goldstein tiene la vista puesta en algo más silencioso. No charla social o discurso reactivo, sino introspección.
"La gente hablando consigo misma, describiendo su estado interior: ahí es donde me gustaría ir a continuación", dice. "No la interacción social, sino la voz tranquila de la mente".
Cree que modelar el diálogo interno (nuestras conversaciones más privadas) podría ofrecer profundas perspectivas sobre la conciencia y la cognición. Pero también tiene problemas éticos. ¿Qué ocurre cuando las máquinas pueden escuchar nuestros pensamientos, aunque sea de forma imperfecta?
"Tenemos que pensar seriamente en la vigilancia, la manipulación del comportamiento y las consecuencias no deseadas", advierte. "No estoy alarmado personalmente, pero debemos estar preparados. Necesitamos asignar recursos para comprender cómo podría desarrollarse este tipo de comportamiento".
Goldstein resiste el sensacionalismo. El cerebro no es un ordenador y la IA no es un cerebro. Sin embargo, las similitudes entre ambos pueden ser algo más que metáforas superficiales.
"Este es un paso adelante", dice, "pero todavía hay magia en la forma en que nuestros cerebros juntan palabras sobre la marcha".
