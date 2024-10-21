Em um estudo que está percorrendo o mundo da tecnologia, os pesquisadores da Apple lançaram dúvidas sobre a noção de que os grandes modelos de linguagem (LLMs) são capazes de raciocínio genuíno.
Os autores do artigo se propuseram a examinar os recursos de raciocínio matemático dos modelos atuais de IA, incluindo o líder dos setores GPT-4 da OpenAI, introduzindo um novo conjunto de dados simbólicos. Ao apresentar conceitos matemáticos familiares de maneiras desconhecidas, os pesquisadores buscaram desafiar a compreensão dos modelos além do mero reconhecimento de padrões.
Os resultados foram impressionantes: a maioria dos LLMs testados teve um desempenho significativamente pior quando confrontados com essas novas representações de problemas matemáticos, sugerindo que esses sistemas podem depender mais da correspondência de padrões do que das habilidades reais de resolução de problemas.
"Este artigo provou fundamentalmente que os LLMs não conseguem raciocinar", diz Ash Minhas, gerente de conteúdo técnico da IBM. “São apenas correspondência de padrões.”
Essa revelação tem feito especialistas questionarem a profundidade dos recursos atuais da IA e o caminho a seguir no campo. As conclusões do estudo reforçam a distinção entre inteligência artificial restrita (ANI) e inteligência artificial geral (AGI), sugerindo que os atuais modelos de aprendizagem ao longo da vida (LLMs) se enquadram firmemente nas categorias, disse Minhas.
O campo da IA está cada vez mais abraçando a possibilidade de alcançar a AGI, que se refere a sistemas de IA capazes de aprender e entender como humanos, aplicando conhecimento em vários domínios, realizando diversas tarefas e potencialmente superando habilidades humanas em tudo, desde raciocínio até atividades criativas.
Helen Toner, ex-membro do conselho da OpenAI e diretora de estratégia do Centro de Segurança e Tecnologias Emergentes da Universidade de Georgetown, testemunhou recentemente perante uma subcomissão do Comitê Judiciário do Senado dos EUA que “a maior desconexão A diferença que vejo entre a percepção pública e as perspectivas dos especialistas em IA vem de dentro do pequeno grupo de empresas que trabalham para construir a "inteligência artificial geral" (AGI, na sigla em inglês). uma IA que é aproximadamente tão inteligente quanto um ser humano.” Ela disse que empresas líderes em IA, como OpenAI, Google e Anthropic, estão tratando o desenvolvimento da AGI como "um objetivo totalmente sério".
No entanto, alguns especialistas afirmam que a AGI está longe de ser uma realidade. "Este artigo ressalta que ainda estamos no mundo da ANI", diz Minhas. "Ainda não alcançamos a AGI."
O artigo também destaca a necessidade de melhores parâmetros de comparação na indústria de IA. De acordo com Minhas, os problemas de benchmark atuais são falhos porque os modelos podem resolvê-los por meio de correspondência de padrões em vez de raciocínio real. "Se os benchmarks fossem baseados em raciocínio real, ou se os problemas de raciocínio fossem mais complexos, todos os modelos teriam um desempenho ruim", diz ele.
Minhas diz que os pesquisadores da Apple criaram esse conjunto de dados, uma coleção de dados usada para treinar e testar modelos de IA e algoritmos, misturando os símbolos
"Eles provaram que o desempenho desses modelos se degrada quando você começa a ajustar e mudar coisas na sequência de input, seja através dos próprios símbolos ou de contexto extra como tokens supérfluos," ele diz.
A metodologia do estudo da Apple envolveu a introdução de vários "fluffs" e cláusulas no conjunto de treinamento para observar como o desempenho do modelo mudou. No entanto, Jess Bozorg, cientista de dados da IBM, aponta uma possível limitação: "Eles não especificaram quantas categorias de fluffs foram consideradas em suas adições, ou quais tipos de fluffs usaram de quais categorias", diz ela.
Uma das críticas do artigo aos atuais parâmetros de avaliação do LLM é a questão da contaminação dos dados. Bozorg explica que o estudo da Apple utilizou o conjunto de dados GSM-8K. que contém problemas matemáticos do ensino fundamental criados por humanos. “Há vazamento de dados”, diz ela. "Isso significa que o modelo já tinha visto alguns desses dados durante o estágio de teste em seu treinamento."
A contaminação é um problema generalizado no setor. Minhas diz que o conjunto de dados GSM-8K "é um benchmark do setor que há partes dele em todos os dados de treinamento que todos os modelos conhecem. Esse é um problema fundamental em todos esses benchmarks criados.”
Curiosamente, o estudo revelou que o GPT-4 teve um desempenho notavelmente melhor do que outros modelos quando testado no novo conjunto de dados simbólico. Minhas especula sobre o motivo: "É possível que, ao treinar o GPT-4, eles pensassem em representações simbólicas e gerassem dados de teste assim? Talvez ainda esteja apenas fazendo correspondência de padrões, mas tinha esse tipo de dados em seu conjunto de dados de treinamento."
Minhas destaca que os pesquisadores estão tentando migrar além da correspondência de padrões, introduzindo memória nos sistemas de IA. "Essa é uma maneira de tentar torná-los mais gerais, mas ainda é apenas correspondência de padrões com base no que você forneceu", diz ele.
O estudo da Apple expôs limitações significativas nos sistemas de IA atuais, revelando que a jornada em direção a máquinas verdadeiramente inteligentes ainda está longe de ser completa. Agora, dizem os especialistas, a comunidade de IA enfrenta o desafio de preencher a lacuna entre a correspondência de padrões e o raciocínio genuíno.
"A arquitetura do transformador por si só não é suficiente para o raciocínio", diz Minhas. "Avanços na arquitetura de modelos são necessários para recursos de raciocínio."
