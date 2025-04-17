Um novo modelo enganou em um determinado benchmark? Qual é o melhor benchmark? E o que “melhor” significa quando cada benchmark mede o desempenho em uma tarefa diferente?

Essas questões fazem com que especialistas como a cientista de pesquisa sênior da IBM Marina Danilevsky abordem a avaliação de modelos com cautela. “Ter um bom desempenho em um benchmark é exatamente isso: ter um bom desempenho nesse benchmark”, disse ela à IBM Think. A transparência é fundamental, diz ela. “Precisamos reconhecer as muitas coisas que um determinado benchmark não testa, para que os próximos benchmarks lidem com algumas dessas lacunas.”

Em contraste com a busca por um benchmark único e definitivo, as novas soluções estão transferindo o controle para os usuários. Uma equipe da plataforma de IA de código aberto Hugging Face lançou recentemente YourBench, uma ferramenta de código aberto que permite que empresas e desenvolvedores usem seus próprios dados para criar benchmarks personalizados para avaliar o desempenho de seus modelos. A maioria dos testes de benchmark utiliza “recursos gerais”, afirma Sumuk Shashidhar, pesquisador da Hugging Face, em entrevista ao IBM Think . “Para muitos casos de uso na vida real, o que mais importa é quão bem um modelo executa sua tarefa específica”, diz ele.

Para aumentar a utilidade dos benchmarks para aplicações da vida real, o YourBench gera automaticamente benchmarks adaptados ao domínio diretamente a partir de documentos fornecidos pelo usuário, de forma barata e sem a necessidade de anotar os documentos manualmente, diz Shashidhar. Especificamente, os pesquisadores demonstram a eficácia do YourBench replicando sete subconjuntos diversos de MMLU—ou Massive Multitarefa Language Understanding— por menos de USD 15 em custos de inferência totais, enquanto preservam as classificações de desempenho relativo do modelo. O MMLU é usado para avaliar como os modelos de linguagem entendem e aplicam o conhecimento em vários assuntos.