O que são referências de LLM?

Autores

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

O que são benchmarks de LLM?

Os benchmarks de LLM são frameworks padronizados para avaliar o desempenho de grandes modelos de linguagem (LLMs). Esses benchmarks consistem em dados de amostra, um conjunto de perguntas ou tarefas para testar LLMs em habilidades específicas, métricas para avaliar o desempenho e um mecanismo de pontuação.

Os modelos são avaliados em relação a um benchmark com base em seus recursos, como programação, bom senso e raciocínio. Outros recursos abrangem processamento de linguagem natural, incluindo tradução automática, resposta a perguntas e sumarização de textos.

Os benchmarks de LLM desempenham papel crucial no desenvolvimento e aprimoramento de modelos. Os benchmarks demonstram o progresso de um LLM à medida que ele aprende com medidas quantitativas que destacam onde o modelo se destaca e quais áreas precisam de melhorias.

Isso, por sua vez, orienta o processo de ajuste fino, o que ajuda os pesquisadores e desenvolvedores de LLMs a avançar no campo. Os benchmarks de LLMs também apresentam uma comparação objetiva de modelos diferentes, ajudando a informar os desenvolvedores de software e as organizações na escolha de quais modelos atendem melhor às suas necessidades.

Como funcionam os benchmarks de LLM

Os benchmarks de LLM operam de maneira direta. Apresentam uma tarefa que um LLM deve realizar: avaliar o desempenho do modelo de acordo com uma determinada métrica e produzir uma pontuação com base nessa métrica. Veja como cada etapa funciona em detalhes:

Configuração

Os benchmarks de LLM já têm dados de amostra preparados: desafios de programação, documentos grandes, problemas de matemática, conversas do mundo real e questões científicas. Há também uma série de tarefas disponíveis, incluindo raciocínio sensato, resolução de problemas, resposta a perguntas, geração de resumos e tradução. Tudo isso é apresentado ao modelo no início do teste.

Teste

Quando o benchmark é executado, ele é apresentado a um modelo em uma das três abordagens:

Few-shot: antes da emissão de um prompt para um LLM executar uma tarefa, ele é alimentado com um pequeno número de exemplos demonstrando como executar a tarefa. Isso demonstra a capacidade de um modelo aprender com dados escassos.
Zero-shot: é solicitado que um LLM conclua uma tarefa sem ter visto nenhum exemplo antes. Isso revela a capacidade de um modelo compreender novos conceitos e adaptar-se a novas situações.
Ajustado: um modelo é treinado em um conjunto de dados semelhante ao que o benchmark utiliza. O objetivo é aumentar o domínio do LLM sobre a tarefa associada ao benchmark e otimizar seu desempenho nessa tarefa específica.

Pontuação

Depois que os testes são feitos, um benchmark LLM calcula o quanto a saída de um modelo se assemelha à solução esperada ou à resposta padrão e, em seguida, gera uma pontuação entre 0 e 100.

Boletim informativo do setor

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Principais métricas dos benchmarking de LLMs

Os benchmarks aplicam métricas diferentes para avaliar o desempenho dos LLMs. Veja aqui os mais comuns:

Exatidão ou precisão calcula o percentual de previsões corretas.
O recall, também conhecido como taxa de sensibilidade, quantifica o número de positivos verdadeiros, ou as previsões corretas reais.
A pontuação F1 combina tanto precisão quanto recall em uma única métrica. Ela considera que as duas medidas têm o mesmo peso para equilibrar falsos positivos ou falsos negativos. As pontuações F1 variam de 0 a 1, com 1 significando recall e precisão excelentes.
Correspondência exata é a proporção das previsões que um LLM corresponde exatamente e é um critério valioso para tradução e resposta a perguntas.
A perplexidade mede a qualidade de um modelo na previsão. Quanto menor a pontuação de perplexidade de um LLM, melhor ele compreende uma tarefa.
A Bilingual Evaluation Understudy (BLEU) avalia a tradução automática ao calcular a correspondência de n-gramas (sequências de n símbolos de texto adjacentes) entre a tradução gerada pelo LLM e a tradução humana de referência.
O substituto baseado em revocação para avaliação de gisting (ROUGE) avalia o resumo do texto e tem vários tipos. O ROUGE-N, por exemplo, faz cálculos semelhantes ao BLEU para resumos, enquanto o ROUGE-L calcula a subsequência comum mais longa entre o resumo previsto e o resumo produzido por humanos.

Uma ou mais dessas métricas quantitativas geralmente são combinadas para uma avaliação mais abrangente e robusta.

Enquanto isso, a avaliação humana envolve métricas qualitativas, como coerência, relevância e significado semântico. Avaliadores humanos examinando e pontuando um LLM podem contribuir para uma avaliação mais matizada, mas pode ser trabalhoso, subjetivo e demorado. Portanto é necessário um equilíbrio de métricas quantitativas e qualitativas.

AI Academy

Por que os modelos de base são uma mudança de paradigma para a IA

Aprenda sobre uma nova classe de modelos de IA flexíveis e reutilizáveis que podem liberar novas receitas, reduzir custos e aumentar a produtividade, e utilize o nosso guia para se aprofundar.

Acessar o episódio

Limitações dos benchmarks de LLM

Embora os benchmarks sejam indicadores sólidos do desempenho do LLM, não são capazes de prever o desempenho de um modelo no mundo real. Veja a seguir algumas restrições dos benchmarks de LLM:

Pontuação limitada

Quando um modelo atinge a pontuação mais alta possível para um determinado benchmark, esse benchmark precisa ser atualizado com tarefas mais difíceis para torná-lo uma medida útil.

Amplo conjunto de dados

Como os benchmarks de LLM utilizam dados de amostra derivados principalmente de uma ampla gama de assuntos e uma ampla gama de tarefas, podem não ser uma métrica adequada para cenários extremos, áreas especializadas ou caso de uso específicos.

Avaliações finitas

Os benchmarks de LLM somente podem testar as habilidades atuais de um modelo. Mas à medida que os LLMs avançarem e novos recursos surgirem, novos benchmarks terão que ser criados.

Overfitting

Se um LLM for treinado no mesmo conjunto de dados que o benchmark, isso poderá levar ao overfitting, onde o modelo pode ter um bom desempenho nos dados de testes, mas não nos dados do mundo real. Isso resulta em pontuações que não refletem as habilidades reais de um LLM.

O que são tabelas de classificação de LLMs?

As tabelas de classificação de LLMs publicam uma classificação dos LLMs com base em uma variedade de benchmarks. As tabelas de classificação oferecem uma maneira de acompanhar os diversos LLMs e comparar o desempenho. As tabelas de classificação de LLMs são especialmente úteis para tomar decisões sobre quais modelos se deve utilizar.

Cada benchmark normalmente tem sua própria tabela de classificação, mas há também tabelas de classificação de LLM independentes. Por exemplo, o Hugging Face tem uma coleção de tabelas de classificação, uma das quais é uma tabela de classificação de LLM aberta que classifica vários modelos de código aberto com base nos benchmarks de ARC, HellaSwag, MMLU, GSM8K, TruthfulQA e Winogrande.

Benchmarks de LLM comuns

Os pesquisadores classificam os benchmarks de acordo com estes dois aspectos:¹

Critérios de avaliação: as métricas de avaliação do LLM podem ser baseadas em informações básicas ou em preferências humanas. A verdade fundamental refere-se a informações que se presume serem verdadeiras, enquanto as preferências humanas são escolhas que refletem o uso no mundo real.
Fonte de perguntas: os prompts podem vir de fontes estáticas ou ativas. Os prompts estáticos contêm perguntas predefinidas, enquanto os prompts ao vivo são perguntas feitas em um ambiente interativo.

Os benchmarks podem se enquadrar em uma ou mais dessas categorias. Veja como funcionam alguns benchmarks populares:

Desafio de raciocínio AI2 (ARC)

O ARC mede as habilidades de resposta a perguntas e raciocínio de um LLM por meio de uma série de mais de 7 mil perguntas de ciências naturais do ensino fundamental. Essas perguntas são divididas em um conjunto fácil e um conjunto de desafio. A pontuação é simples, com um modelo recebendo um ponto para cada resposta correta e 1/N pontos se ele apresentar várias respostas e uma delas estiver correta^.2

Arena de chatbots

A arena de chatbots é uma plataforma de benchmark aberta que coloca dois chatbots anônimos um contra o outro. Os usuários têm conversas aleatórias do mundo real com ambos os chatbots em uma "arena" e, em seguida, votam em qual deles preferem, após o que as identidades dos modelos são reveladas. Esses dados de comparação entre pares obtidos por meio de crowdsourcing são alimentados em métodos estatísticos que estimam as pontuações e criam classificações aproximadas de vários LLMs. Também são utilizados algoritmos de amostragem para emparelhar modelos.¹

Matemática do ensino fundamental 8K (GSM8K)

O GSM8K testa as habilidades de raciocínio matemático de um LLM. Tem um corpo de 8.500 problemas de matemática do ensino fundamental. As soluções são reunidas na forma de linguagem natural e não como expressões matemáticas. Os verificadores de IA são treinados para avaliar as soluções dos modelos.³

HellaSwag

HellaSwag é acrônimo de "Harder Endings, Longer Contexts and Low-shot Activities for Situations With Adversarial Generations" (Términos mais difíceis, contextos mais longos e atividades de baixa probabilidade para situações com gerações adversárias). Esse benchmark concentra-se no raciocínio de senso comum e da inferência de linguagem natural. Os modelos têm a tarefa de completar as frases escolhendo entre várias terminações possíveis. Essas terminações incluem respostas erradas criadas por meio de filtragem adversarial e um algoritmo que gera respostas realistas, mas enganosamente incorretas. O HellaSwag avalia a precisão nas categories de few-shot e zero-shot.⁴

HumanEval

O HumanEval avalia o desempenho de um LLM em termos de geração de código, especificamente a correção funcional. Os modelos recebem problemas de programação para serem resolvidos e são avaliados com base na aprovação nos testes unitários correspondentes. Isso é semelhante aos desenvolvedores de software humanos que testam se o código está correto com base na aprovação em testes de unidade específicos. O benchmark HumanEval utiliza sua própria métrica de avaliação chamada pass@k, que é a probabilidade de que pelo menos uma das soluções de código geradas por k para um problema de programação passe nos testes de unidade desse problema.⁵

Massive Multitask Language Understanding (MMLU)

O MMLU é um benchmark que avalia a amplitude do conhecimento de um LLM, a profundidade do natural language understanding e sua capacidade de resolver problemas com base no conhecimento adquirido. O conjunto de dados do MMLU abrange mais de 15 mil perguntas de conhecimentos gerais de múltipla escolha em 57 assuntos. A avaliação ocorre exclusivamente em configurações de poucas injeções e zero aplicações. O benchmark MMLU pontua a precisão de um modelo em cada assunto e depois calcula a média desses números para uma pontuação final.⁶

Problemas básicos de programação (MBPP)

MBPP, também conhecido como Mostly Basic Python Problems, é outro benchmark de geração de código. Contém um corpus de mais de 900 tarefas de programação. Semelhante ao HumanEval, ele avalia a correção funcional com base na aprovação em um conjunto de casos de teste. A avaliação acontece em cenários few-shot e com ajuste fino. O MBPP utiliza duas métricas: a porcentagem de problemas resolvidos por qualquer amostra do modelo e a porcentagem de amostras que resolvem suas respectivas tarefas.⁷

MT-Bench

Os pesquisadores por trás do Chatbot Arena também criaram o MT-Bench, projetado para testar a capacidade de um LLM de dialogar e seguir instruções. Seu conjunto de dados consiste em perguntas abertas de várias voltas, com dez perguntas em cada uma destas oito áreas: programação, extração, conhecimento I (STEM), conhecimento II (humanas e ciências sociais), matemática, raciocínio, interpretação de papéis e redação. O MT-Bench utiliza o LLM GPT-4 para avaliar as respostas de outros LLMs^.8

SWE-bench

Assim como o HumanEval, o SWE-bench testa as habilidades de geração de código de um LLM com foco na resolução de problemas. Os modelos têm a tarefa de corrigir um bug ou lidar com uma solicitação de recurso em uma base de código específica. A métrica de avaliação do benchmark é a porcentagem de instâncias de tarefas resolvidas.⁹

TruthfulQA

Grandes modelos de linguagem tendem a alucinar, resultando em saídas imprecisas. O benchmark TruthfulQA procura resolver isso medindo a capacidade de um LLM gerar respostas verdadeiras às perguntas. Seu conjunto de dados contém mais de 800 perguntas abrangendo 38 assuntos. O TruthfulQA combina a avaliação humana com o GPT-3 LLM com ajuste fino nas métricas BLEU e ROUGE para prever avaliações humanas de informatividade e veracidade.¹⁰

Winogrande

Winogrande avalia os recursos de raciocínio de senso comum de um LLM. Ele se baseia no benchmark original do Winograd Schema Challenge (WSC), com um enorme conjunto de dados de 44 mil problemas de crowdsourcing que também usam filtragem adversária. A pontuação baseia-se na precisão.¹¹

Como escolher o modelo de base certo

Aprenda como escolher a abordagem correta na preparação de conjuntos de dados e no emprego de modelos de base.

O que são benchmarks de LLM?

Autores

O que são benchmarks de LLM?

Como funcionam os benchmarks de LLM

Configuração

Teste

Pontuação

As mais recentes tendências em IA, trazidas a você por especialistas

Agradecemos a você! Você se inscreveu.

Principais métricas dos benchmarking de LLMs

Por que os modelos de base são uma mudança de paradigma para a IA

Limitações dos benchmarks de LLM

O que são tabelas de classificação de LLMs?

Benchmarks de LLM comuns

Desafio de raciocínio AI2 (ARC)

Arena de chatbots

Matemática do ensino fundamental 8K (GSM8K)

HellaSwag

HumanEval

Massive Multitask Language Understanding (MMLU)

Problemas básicos de programação (MBPP)

MT-Bench

SWE-bench

TruthfulQA

Winogrande

Recursos