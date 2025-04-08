Os grandes modelos de linguagem estão ficando assustadoramente bons em entender a fala humana, mas e se eles também estiverem espelhando o próprio cérebro?
Em um novo estudo publicado na Nature Human Behavior, os cientistas descobriram que o modelo Whisper da OpenAI processa uma linguagem de forma surpreendentemente semelhante à forma como os neurônios reais respondem durante conversas naturais. O pesquisador principal,Ariel Goldstein, disse ao IBM Think que ele e sua equipe analisaram mais de 100 horas de gravações cerebrais tiradas de pessoas envolvidas em diálogos não roteirizados. Ao comparar essas gravações com o funcionamento interno do Whisper, eles descobriram que as representações em camadas do modelo se alinham estreitamente com a forma como o cérebro processa a fala, desde o som bruto até o significado.
Goldstein afirma que as descobertas podem ter implicações comerciais significativas. As empresas podem, um dia, projetar ferramentas de voz de IA que decodifiquem a fala de forma tão flexível e eficiente quanto o cérebro, reduzindo o tempo de treinamento, aprimorando a transcrição e até mesmo alimentando próteses neurais de última geração.
"A linguagem surge em contextos sociais complexos, não em laboratórios estéreis", afirma Goldstein. "Nosso estudo mostra que a cognição humana e os modelos de IA podem compartilhar um código mais profundo e flexível para lidar com conversas."
As gravações foram obtidas por meio de eletrocorticografia (ECoG), que coloca eletrodos diretamente na superfície do cérebro. Embora invasiva, essa técnica oferece uma visão de alta fidelidade da atividade neural. A equipe de Goldstein registrou a atividade cerebral de pacientes que já estavam sendo submetidos a monitoramento para a cirurgia de epilepsia, capturando conversas cotidianas e espontâneas em vez de palavras isoladas ou estímulos artificiais.
A conexão cérebro-IA inspirou inovações na IBM Research, onde cientistas desenvolveram chips como o NorthPole, que imitam a arquitetura neural ao eliminar os tradicionais gargalos de memória e computação. O protótipo da IBM demonstrou uma eficiência notável, realizando inferências em grandes modelos de IA até 46,9 vezes mais rápido do que as principais GPUs.
O estudo descobriu que os sinais neurais e o modelo de incorporação do Whisper apresentaram um alto grau de alinhamento linear, sugerindo que o cérebro processa a linguagem não em estágios rígidos e separados, mas em camadas flexíveis e sobrepostas, assim como os sistemas de deep learning . As informações acústicas, semânticas e gramaticais não estavam confinadas a áreas isoladas do cérebro ou aos modelos de IA. Em vez disso, pareciam fundidas nas mesmas camadas, sugerindo uma estratégia de otimização de significado compartilhada.
"Essa ideia de que temos um sistema otimizado para uma tarefa – e que induz representações que se correlacionam com conceitos psicolinguísticos, mas não exatamente – é uma nova maneira de pensar sobre como o cérebro processa informações", explica Goldstein.
Ele observa que, ao contrário das visões anteriores que dividiam as funções linguísticas do cérebro em módulos distintos – alguns para o som, outros para a gramática, outros para o significado – as descobertas de sua equipe sugerem que o cérebro pode processar todas essas funções simultaneamente em regiões integradas, de forma muito semelhante a um modelo de deep learning treinado para concluir tarefas de ponta a ponta.
O Whisper, desenvolvido pela OpenAI, foi escolhido por sua semelhança arquitetônica com a tarefa do cérebro: transformar um input acústico em uma linguagem coerente. "O cérebro não recebe palavras, ele recebe sons", diz Goldstein. "O Whisper imita isso convertendo áudio bruto em texto, camada por camada."
Além disso, a equipe descobriu que, às vezes, os sinais semânticos podiam ser detectados antes mesmo de a pessoa começar a falar. Isso sugere que o cérebro pode pré-codificar a intenção ou o significado antes da fala, tornando ainda mais tênue a linha entre pensamento e expressão.
Goldstein observa que essa inovação pode aprimorar a transcrição em tempo real, melhorar os assistentes de voz e viabilizar agentes de atendimento ao cliente com IA mais inteligentes para as empresas. A ideia é que alinhar os modelos de IA mais de perto com os sinais do cérebro humano – especialmente em condições ruidosas do mundo real – pode aumentar o desempenho sem exigir centenas de milhares de horas de treinamento.
"É possível que, se restringirmos os futuros modelos speech to text usando sinais neurais ou representações neurais humanas, isso possa melhorar o desempenho desses modelos", diz Goldstein. "Mas é especulativo. Nós não testamos diretamente."
Imagine um futuro assistente de voz treinado não apenas em transcrições, mas também em representações de significado semelhantes às do cérebro. Isso poderia reduzir os requisitos de dados para treinamento e aumentar a robustez em ambientes imprevisíveis, como centrais de atendimento ou sistemas de assistência ao motorista.
A pesquisa também é promissora para a tecnologia assistiva. A decodificação de sinais linguísticos internos pode restaurar a comunicação em indivíduos com doenças degenerativas ou que perderam a capacidade de falar. Grandes modelos de linguagem poderiam servir como suporte, ajudando a traduzir intenções neurais gerais em linguagem gramaticalmente coerente.
"Se o problema não for cognitivo, mas sim no controle dos músculos, sim, poderemos eventualmente criar dispositivos que decodifiquem o significado no cérebro e ajudem as pessoas a se comunicarem", afirma ele. "Mas usamos métodos invasivos neste estudo. Se você estiver criando algo para uso prático, terá que funcionar de forma não invasiva, e esses sinais são mais ruidosos."
Existe também uma fronteira especulativa: a leitura da mente. Goldstein é cauteloso. "Falar faz parte do processo de formação de um pensamento", observa ele. "Não é como se tivéssemos tudo completamente formado em nossas mentes e simplesmente apertássemos 'enviar'. Talvez consigamos captar algo no nível conceitual, mas não necessariamente um monólogo interno tão detalhado."
Ainda assim, as primeiras evidências do estudo encontraram vestígios de conteúdo semântico em sinais cerebrais antes mesmo de uma palavra ser pronunciada, sugerindo que, com resolução e contexto suficientes, uma máquina poderia prever o que alguém pretende dizer.
Goldstein enfatiza que, embora os modelos de linguagem atuais, como Whisper e GPT, sejam fundamentalmente arquiteturas de feed-forward – os dados fluem em uma única direção – o cérebro é recursivo e orientado por feedback. "O estado final do cérebro se torna seu próximo input ", diz ele. "Há um ciclo constante de automodificação. Essa é uma diferença crucial."
Ele sugere que os futuros sistemas de IA ganharão poder ao incorporar ciclos de feedback semelhantes, onde a saída informa as entradas futuras em tempo real. Isso tem implicações para a linguagem e para qualquer sistema que aprenda por meio da interação, como a robótica ou agentes autônomos.
A pesquisa também abre caminho para novos tipos de colaborações interdisciplinares. O laboratório de Goldstein agora explora como a entrada multimodal – visão, som, movimento – pode ser integrada em sistemas de IA que reflitam melhor a forma como as pessoas vivenciam o mundo.
"Se pudermos usar as mesmas modalidades que os humanos utilizam – corporal, visual, auditiva – e construir modelos treinados de maneira semelhante, poderemos chegar muito mais perto de modelar o cérebro", diz ele.
Olhando para o futuro, Goldstein está de olho em algo mais tranquilo. Não na conversa social ou fala reativa, mas na introspecção.
"Pessoas falando sozinhas, descrevendo seu estado interior, é para esse caminho que eu gostaria de seguir", diz ele. "Não a interação social, mas a voz silenciosa da mente."
Ele acredita que modelar o diálogo interno – nossas conversas mais íntimas – pode oferecer uma visão profunda da consciência e da cognição. Mas também é uma questão eticamente complexa. O que acontece quando as máquinas conseguem escutar nossos pensamentos, mesmo que de forma imperfeita?
"Precisamos pensar seriamente sobre vigilância, manipulação comportamental e consequências não intencionais", alerta ele. "Pessoalmente, não estou preocupado, mas devemos estar preparados. Precisamos alocar recursos para entender como esse tipo de comportamento pode se desenrolar."
Goldstein resiste ao sensacionalismo. O cérebro não é um computador, e a IA não é um cérebro. No entanto, as semelhanças entre os dois podem ser mais do que meras metáforas superficiais.
"Este é um passo em frente", diz ele, "mas ainda há magia na forma como nossos cérebros juntam as palavras na hora."
