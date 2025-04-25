Um tema quente, se é que já existiu, benchmarks, se tornou um debate central agora que os recursos de IA estão avançando tão rápido que estão consistentemente superando as ferramentas usadas para medi-los.

"Todos os anos, analisamos o desempenho desses algoritmos em benchmarks, e todos os anos parece que eles estão superando esses benchmarks", diz Vanessa Parli, uma das autoras do relatório, em entrevista à IBM Think. "Da mesma forma, este ano, isso está acontecendo mesmo com os benchmarks mais recentes."

O relatório observou que, em 2023, os pesquisadores introduziram novos benchmarks —MMMU, GPQA e SWE-bench— para testar os limites de sistemas avançados de IA. Apenas um ano depois, o desempenho aumentou drasticamente: as pontuações aumentaram 18,8, 48,9 e 67,3 pontos percentuais no MMMU, GPQA e SWE-bench, respectivamente, de acordo com o relatório.

Isso aumenta a ambiguidade na comunidade de pesquisa sobre o verdadeiro significado — e valor — de um benchmark de LLM. Parli apresenta questões críticas para consideração: "Estamos medindo a coisa certa? Esses benchmarks estão comprometidos? E como a comunidade científica deve avaliar os modelos?"

Pensando no futuro, Ash Minhas também questiona como será o futuro do benchmarking. “Onde isso vai parar?” ele pergunta em uma entrevista à IBM Think. “O Teste de Turing terá que ser constantemente uma meta em movimento? O último exame da humanidade é realmente o último exame?”

Enquanto isso, especialistas alertam para o risco de overfitting, fenômeno no qual um modelo de IA aprende a ter um desempenho excepcionalmente bom em testes de benchmark específicos, mas pode não conseguir generalizar para dados novos e não vistos em aplicações do mundo real. "Estamos apenas treinando o modelo para passar no benchmark?" ele acrescenta. "O MMMU é um bom benchmark, mas será que é porque o modelo sabe como responder ao benchmark?"

Minhas também alerta que o entusiasmo e o ímpeto do progresso podem estar tendo prioridade em relação a preocupações com ética, imparcialidade e viés.