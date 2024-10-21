O artigo também destaca a necessidade de melhores parâmetros de comparação na indústria de IA. De acordo com Minhas, os problemas de benchmark atuais são falhos porque os modelos podem resolvê-los por meio de correspondência de padrões em vez de raciocínio real. "Se os benchmarks fossem baseados em raciocínio real, ou se os problemas de raciocínio fossem mais complexos, todos os modelos teriam um desempenho ruim", diz ele.

Minhas diz que os pesquisadores da Apple criaram esse conjunto de dados, uma coleção de dados usada para treinar e testar modelos de IA e algoritmos, misturando os símbolos



"Eles provaram que o desempenho desses modelos se degrada quando você começa a ajustar e mudar coisas na sequência de input, seja através dos próprios símbolos ou de contexto extra como tokens supérfluos," ele diz.

A metodologia do estudo da Apple envolveu a introdução de vários "fluffs" e cláusulas no conjunto de treinamento para observar como o desempenho do modelo mudou. No entanto, Jess Bozorg, cientista de dados da IBM, aponta uma possível limitação: "Eles não especificaram quantas categorias de fluffs foram consideradas em suas adições, ou quais tipos de fluffs usaram de quais categorias", diz ela.

Uma das críticas do artigo aos atuais parâmetros de avaliação do LLM é a questão da contaminação dos dados. Bozorg explica que o estudo da Apple utilizou o conjunto de dados GSM-8K. que contém problemas matemáticos do ensino fundamental criados por humanos. “Há vazamento de dados”, diz ela. "Isso significa que o modelo já tinha visto alguns desses dados durante o estágio de teste em seu treinamento."

A contaminação é um problema generalizado no setor. Minhas diz que o conjunto de dados GSM-8K "é um benchmark do setor que há partes dele em todos os dados de treinamento que todos os modelos conhecem. Esse é um problema fundamental em todos esses benchmarks criados.”

Curiosamente, o estudo revelou que o GPT-4 teve um desempenho notavelmente melhor do que outros modelos quando testado no novo conjunto de dados simbólico. Minhas especula sobre o motivo: "É possível que, ao treinar o GPT-4, eles pensassem em representações simbólicas e gerassem dados de teste assim? Talvez ainda esteja apenas fazendo correspondência de padrões, mas tinha esse tipo de dados em seu conjunto de dados de treinamento."

Minhas destaca que os pesquisadores estão tentando migrar além da correspondência de padrões, introduzindo memória nos sistemas de IA. "Essa é uma maneira de tentar torná-los mais gerais, mas ainda é apenas correspondência de padrões com base no que você forneceu", diz ele.

O estudo da Apple expôs limitações significativas nos sistemas de IA atuais, revelando que a jornada em direção a máquinas verdadeiramente inteligentes ainda está longe de ser completa. Agora, dizem os especialistas, a comunidade de IA enfrenta o desafio de preencher a lacuna entre a correspondência de padrões e o raciocínio genuíno.

"A arquitetura do transformador por si só não é suficiente para o raciocínio", diz Minhas. "Avanços na arquitetura de modelos são necessários para recursos de raciocínio."