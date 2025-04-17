Um novo modelo enganou em um determinado benchmark? Qual é o melhor benchmark? E o que “melhor” significa quando cada benchmark mede o desempenho em uma tarefa diferente?
Essas questões fazem com que especialistas como a cientista de pesquisa sênior da IBM Marina Danilevsky abordem a avaliação de modelos com cautela. “Ter um bom desempenho em um benchmark é exatamente isso: ter um bom desempenho nesse benchmark”, disse ela à IBM Think. A transparência é fundamental, diz ela. “Precisamos reconhecer as muitas coisas que um determinado benchmark não testa, para que os próximos benchmarks lidem com algumas dessas lacunas.”
Em contraste com a busca por um benchmark único e definitivo, as novas soluções estão transferindo o controle para os usuários. Uma equipe da plataforma de IA de código aberto Hugging Face lançou recentemente YourBench, uma ferramenta de código aberto que permite que empresas e desenvolvedores usem seus próprios dados para criar benchmarks personalizados para avaliar o desempenho de seus modelos. A maioria dos testes de benchmark utiliza “recursos gerais”, afirma Sumuk Shashidhar, pesquisador da Hugging Face, em entrevista ao IBM Think . “Para muitos casos de uso na vida real, o que mais importa é quão bem um modelo executa sua tarefa específica”, diz ele.
Para aumentar a utilidade dos benchmarks para aplicações da vida real, o YourBench gera automaticamente benchmarks adaptados ao domínio diretamente a partir de documentos fornecidos pelo usuário, de forma barata e sem a necessidade de anotar os documentos manualmente, diz Shashidhar. Especificamente, os pesquisadores demonstram a eficácia do YourBench replicando sete subconjuntos diversos de MMLU—ou Massive Multitarefa Language Understanding— por menos de USD 15 em custos de inferência totais, enquanto preservam as classificações de desempenho relativo do modelo. O MMLU é usado para avaliar como os modelos de linguagem entendem e aplicam o conhecimento em vários assuntos.
Algumas empresas, como a IBM, já desenvolveram um gerador de benchmark personalizado semelhante ao YourBench. "Isso me lembra nosso pipeline caseiro para criar dados sintéticos para treinamento ou avaliação", diz Danilevsky. "Criar dados sintéticos é fácil. Criar bons dados sintéticos é difícil”, diz ela. "Portanto, embora o YourBench seja eficaz com subconjuntos MMLU, isso não se traduz em ser bom em nada que eu jogo nele."
Outra alternativa que ganhou popularidade é o Chatbot Arena (CA), um benchmark de crowdsourcing. Em vez de testes rigorosos de matemática ou linguagem, o Chatbot Arena permite que os usuários façam uma pergunta, obtenham respostas de dois modelos de IA anônimos e avaliem qual deles é o melhor.
Fundada por dois estudantes de pós-graduação da Universidade da Califórnia, Berkeley, a CA agora tem acesso antecipado a modelos de todos os principais players de IA, para que os entusiastas possam competir entre si com bots, "criando suspense e gamificando a avaliação de modelos", diz o cofundador da CA, Anastasios Angelopoulos, em uma entrevista a IBM Think. A tabela de classificação da CA, como o Painel publicitário Hot 100 para modelos de IA , recebeu mais de dois milhões de votos até o momento.
Como eles acompanham de perto os novos modelos, Angelopoulos ficou menos surpreso do que muitos quando o DeepSeek-R1 disparou em popularidade. "Os modelos de código aberto estão se atualizando há algum tempo, então o DeepSeek apenas confirmou essa tendência."
Os fundadores criaram o Chatbot Arena em resposta à frustração com os benchmarks tradicionais. Parte do desafio, diz Angelopoulos, é que "os benchmarks são estáticos — certos modelos ficam muito bons em benchmarks específicos" Como resultado, há um risco de "overfitting dos dados", diz ele, no qual um modelo aprende muito bem os dados de treinamento. O benefício do Chatbot Arena, acrescenta ele, é que os dados estão em tempo real. "Você não pode superajustar os dados. Ela não fica contaminada nem obsoleta."
Para Danilevsky, "o agregado da tabela de classificação do chatbot Arena por si só não é praticável", diz ela. "Ter feedback mais detalhado sobre um modelo além de um positivo e um positivo é necessário para muitas aplicações do mundo real." Ainda assim, o conceito é muito popular, ela reconhece. "Eu só gostaria de entender um pouco mais de como e por que as pessoas estão respondendo a um determinado modelo. Metadados adicionais seriam realmente úteis aqui.”
Até Angelopoulos acredita que "o uso real é medir algo diferente dos benchmarks". Ele usa o modelo GPT-4.5 da OpenAI como exemplo. “Não teve um bom desempenho em muitos benchmarks qualitativos, mas as pessoas adoraram. Você precisa de uma ferramenta diferente para medir a vibração de um modelo.”
