Referências do modelo da Fundação

Para encontrar o modelo de fundação adequado às suas necessidades, compare o desempenho de diferentes modelos de fundação em benchmarks de desempenho relevantes.

Os benchmarks de modelos de fundação testam a capacidade de um modelo de fundação de gerar resultados precisos ou esperados para tarefas específicas. Os benchmarks abrangem vários recursos, inclusive se o modelo pode responder a perguntas sobre tópicos que variam de matemática elementar a assuntos jurídicos e finanças, ou se o modelo pode resumir textos, gerar textos em outros idiomas e muito mais.

Os benchmarks são compostos por conjuntos de dados com entradas e saídas esperadas e métricas que quantificam a qualidade das respostas de um modelo, medindo fatores como precisão, nocividade e viés.

Procure benchmarks que testem o modelo em relação às tarefas específicas que lhe interessam. A análise das métricas pode ajudá-lo a avaliar os recursos de um modelo de fundação antes de testá-lo.

Os seguintes benchmarks do modelo básico estão disponíveis em watsonx.ai:

Como encontrar as pontuações de benchmark do modelo

Para acessar os benchmarks do modelo básico, conclua as etapas a seguir:

  1. No watsonx.ai Prompt Lab no modo de bate-papo, clique no campo Modelo e escolha Exibir todos os modelos de fundação.

  2. Clique na guia Modelos de benchmarks para ver os benchmarks disponíveis.

    Clique no ícone Filtro Ícone de filtro para alterar fatores como os modelos ou tipos de benchmark a serem exibidos na visualização de comparação.

    As pontuações variam de 0 a 100. Pontuações mais altas são melhores.

Executar suas próprias avaliações de benchmark de modelos de fundação

A visualização de benchmarks de modelo em watsonx.ai mostra pontuações de benchmark de testes realizados por IBM. IBM usa uma estrutura de avaliação de modelo de fundação que se baseia principalmente na biblioteca Unitxt. O Unitxt é um projeto de código aberto desenvolvido pela IBM Research para atender às necessidades exclusivas de avaliação do modelo de fundação em casos de uso corporativo. IBM também usa outra estrutura de avaliação de código aberto líder, chamada LM evaluation harness. Essas duas ferramentas de código aberto podem ser usadas para fazer avaliações independentes dos modelos de fundação.

Percorra este notebook de amostra, que avalia o modelo granite-13b-instruct-v2 em relação a benchmarks padrão usando o chicote de avaliação LM para saber mais. Consulte Usar o lm-evaluation-harness e os próprios dados de benchmarking com os modelos da fundação watsonx.ai.

Para obter mais informações, consulte os recursos a seguir:

Benchmarks de compreensão do idioma inglês IBM

Os benchmarks de compreensão do idioma inglês da IBM são benchmarks publicados pela IBM com base em testes realizados pela IBM Research para avaliar a capacidade de cada modelo de realizar tarefas comuns.

A tabela a seguir descreve os conjuntos de dados, as metas e as métricas dos benchmarks IBM.

Benchmarks de compreensão do idioma inglês IBM
Nome do benchmark Objetivo Descrição do conjunto de dados Métrica
Sumarização Condensa grandes quantidades de texto em poucas frases que capturam os pontos principais. Útil para capturar as principais ideias, decisões ou itens de ação de uma longa transcrição de reunião, por exemplo. Solicita que os modelos resumam o texto e compara os resumos gerados pela IA com os resumos gerados por humanos de três conjuntos de dados:
- diálogos de TI
- diálogos de suporte técnico
- blogs de mídia social
Pontuação média do ROUGE-L
Geração aumentada por recuperação (RAG) Uma técnica na qual um modelo de fundação é ampliado com conhecimento de fontes externas. Na etapa de recuperação, os documentos relevantes de uma fonte externa são identificados a partir da consulta do usuário. Na etapa de geração, partes desses documentos são incluídas no prompt para gerar uma resposta baseada em informações relevantes. Envia perguntas com base em informações de documentos em 3 conjuntos de dados separados Pontuação média do ROUGE-L
Classificação Identifica os dados como pertencentes a classes distintas de informações. Útil para categorizar informações, como feedback de clientes, para que você possa gerenciar ou agir com base nas informações de forma mais eficiente. Cinco conjuntos de dados com conteúdo variado, incluindo conteúdo contratual a ser classificado e conteúdo a ser avaliado quanto a sentimento, emoção e tom. Pontuação média F1
Geração Gera linguagem em resposta a instruções e dicas fornecidas em avisos de modelos básicos. Um conjunto de dados com e-mails de marketing Pontuação SacreBLEU
Extração Encontra termos-chave ou menções em dados com base no significado semântico das palavras, em vez de simples correspondências de texto. Compara as menções de entidades encontradas pelo modelo com as menções de entidades encontradas por um ser humano. Os conjuntos de dados incluem um conjunto de dados com 12 entidades nomeadas e um conjunto de dados com três tipos de sentimentos. Pontuação média F1

 

Referências de código aberto para compreensão do idioma inglês para modelos de fundação

Os benchmarks de código aberto de compreensão do idioma inglês mostram os resultados dos testes realizados pela IBM Research e que usam principalmente conjuntos de dados em inglês publicados por terceiros, como instituições acadêmicas ou equipes de pesquisa do setor.

A tabela a seguir descreve os conjuntos de dados, as metas e as métricas dos benchmarks de compreensão do idioma inglês.

Benchmarks de código aberto de compreensão do idioma inglês no watsonx.ai
Nome do benchmark Objetivo Descrição do conjunto de dados Métrica Informações relacionadas
20 Grupos de notícias Avalia a capacidade de um modelo de classificar o texto. Uma versão do conjunto de dados 20 newsgroups do scikit-learn com quase 20.000 documentos de newsgroups agrupados em 20 categorias, incluindo computadores, automóveis, esportes, medicina, espaço e política. Pontuação de F1 Cartão de conjunto de dados em Hugging Face
Arena-Hard-Auto Avalia a capacidade de um modelo de responder a perguntas. 500 solicitações de usuários a partir de dados ao vivo enviados à plataforma de crowdsourcing Chatbot Arena. A métrica mostra a taxa de ganho das respostas do modelo. - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
AttaQ 500 Avalia se um modelo é suscetível a vulnerabilidades de segurança. Perguntas elaboradas para provocar respostas prejudiciais nas categorias de engano, discriminação, informações prejudiciais, abuso de substâncias, conteúdo sexual, informações de identificação pessoal (PII) e violência. A métrica mostra a segurança do modelo. - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
BBQ
(Referência de viés para resposta a perguntas)
Avalia a capacidade de um modelo de reconhecer declarações que contêm visões preconceituosas sobre pessoas de classes consideradas protegidas pelos falantes de inglês dos EUA. Conjuntos de perguntas que destacam preconceitos. A métrica mede a precisão das respostas. - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
BillSum Avalia a capacidade de um modelo de resumir um texto. Conjunto de dados que resume os projetos de lei do Congresso dos EUA e do estado da Califórnia. Pontuação ROUGE-L para o resumo gerado. - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
Banco de dados de reclamações do CFPB Avaliar a capacidade de um modelo de classificar o texto. Reclamações do Consumer Financial Protection Bureau (CFPB) de clientes reais sobre relatórios de crédito, empréstimos estudantis, transferências de dinheiro e outros serviços financeiros. Pontuação de F1 - Cartão de conjunto de dados em Unitxt.ai
CLAPnq Avaliar a capacidade de um modelo de usar informações de passagens para responder a perguntas. Pares de perguntas e respostas de formato longo. Pontuação de F1 - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
FinQA Avalia a capacidade de um modelo de responder a perguntas sobre finanças e fazer raciocínio numérico. Mais de 8.000 pares de QA sobre finanças, escritos por especialistas em finanças. A métrica mede a precisão das respostas. - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
FLORES-101 Avalia a capacidade de um modelo de traduzir textos. Artigos da Wikipédia em inglês que foram traduzidos por tradutores humanos profissionais para 101 idiomas Pontuação SacreBLEU - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
HellaSwag Avalia a capacidade de um modelo de realizar o preenchimento de cenários de bom senso. Perguntas de múltipla escolha provenientes do ActivityNet e do WikiHow. A métrica mede a precisão das respostas. - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
LegalBench Avalia a capacidade de um modelo de raciocinar sobre cenários jurídicos. 162 tarefas que abrangem vários textos, estruturas e domínios jurídicos. Pontuação de F1 - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
MMLU-Pro Avaliar a capacidade de um modelo de compreender tarefas desafiadoras. Uma versão mais desafiadora do conjunto de dados MMLU (Massive Multitask Language Understanding), que tem mais perguntas voltadas para o raciocínio e aumenta as opções de resposta de 4 para 10 opções. A métrica mede a precisão das respostas. - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
OpenBookQA Avaliar a capacidade de um modelo de usar o raciocínio de várias etapas e a compreensão de textos ricos para responder a perguntas de múltipla escolha. Simula um formato de exame com livro aberto para fornecer passagens de apoio e pares de perguntas e respostas de múltipla escolha. A métrica mede a precisão das respostas. - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
TLDR Avalia a capacidade de um modelo de resumir um texto. Mais de 3 milhões de publicações pré-processadas do Reddit com um comprimento médio de 270 palavras para o conteúdo e 28 palavras no resumo. Pontuação ROUGE-L para o resumo gerado. - Cartão de conjunto de dados em Hugging Face
- Documento de pesquisa
Universal NER Avalia a capacidade de um modelo de reconhecer entidades nomeadas. Inclui 19 conjuntos de dados de vários domínios, incluindo notícias e mídia social. Os conjuntos de dados incluem anotações de entidades nomeadas e abrangem 13 idiomas diferentes. Pontuação de F1 Cartão de conjunto de dados em Hugging Face

 

Referências de compreensão de linguagem multilíngue de código aberto para modelos de fundação

Os benchmarks de compreensão de idiomas multilíngues de código aberto mostram os resultados dos testes realizados pela IBM Research e que usam conjuntos de dados multilíngues publicados por terceiros, como instituições acadêmicas ou equipes de pesquisa do setor.

A tabela a seguir descreve os conjuntos de dados, as metas, as métricas e os idiomas de destino dos benchmarks multilíngues.

Referências de compreensão de idiomas multilíngues de código aberto no watsonx.ai
Nome do benchmark Objetivo Descrição do conjunto de dados Métrica Idiomas Informações relacionadas
Inglês básico Avalia se um modelo pode traduzir frases em inglês para estes idiomas: Francês, alemão, espanhol, português, japonês e coreano. 850 palavras-chave em inglês e suas traduções. A métrica mostra a pontuação de contenção de strings, que mede a distância de palavras ou caracteres entre a frase de destino e a tradução de referência. O conjunto de dados é compatível com inglês, francês, alemão, espanhol, português, japonês e coreano. Disponível no watsonx.ai para modelos que suportam coreano. Lista de palavras do inglês básico de Ogden
Belebele Avalia a capacidade de leitura-compreensão e resposta a perguntas multilíngues de um modelo. Perguntas, passagens relacionadas e respostas de múltipla escolha em 122 idiomas. A métrica mede a precisão das respostas. Disponível no watsonx.ai para modelos que suportam árabe, francês, alemão, japonês, coreano, português e espanhol. Cartão do conjunto de dados em Hugging Face
MASSIVO Avalia a capacidade de um modelo de classificar textos multilíngues. Mais de 1 milhão de expressões de interações com o assistente de voz da Amazon, localizadas em 52 idiomas e anotadas com informações de intenção e tipo de slot. Pontuação de F1 Disponível no watsonx.ai para modelos que suportam árabe, francês, alemão, japonês, coreano, português e espanhol. Cartão do conjunto de dados em Hugging Face
MASSIVE com prompts em inglês Avalia a capacidade de um modelo de classificar textos multilíngues com rótulos em inglês. Mais de 1 milhão de expressões de interações com o assistente de voz da Amazon, localizadas em 52 idiomas e anotadas com informações de intenção e tipo de slot. Pontuação de F1 Disponível no watsonx.ai para modelos que suportam árabe e coreano. Cartão do conjunto de dados em Hugging Face
MKQA Avalia a capacidade de resposta a perguntas multilíngues de um modelo. Inclui 10 mil pares de perguntas e respostas para cada um dos 26 idiomas (totalizando 260 mil pares). Pontuação de F1 Disponível no watsonx.ai para modelos que suportam árabe, francês, alemão, japonês, coreano, português e espanhol. Cartão do conjunto de dados em Hugging Face
MLSUM Avalia a capacidade de um modelo de resumir textos multilíngues. Mais de 1.5 milhão de pares de artigos e resumos de jornais on-line em cinco idiomas (francês, alemão, espanhol, russo e turco) e jornais em inglês da CNN e do Daily Mail Pontuação ROUGE-L para o resumo gerado. Disponível no watsonx.ai para modelos que suportam francês e alemão. Cartão do conjunto de dados em Hugging Face
XGLUE.qg Avalia a capacidade de um modelo de entender textos multilíngues e gerar perguntas perspicazes sobre o texto. 11 tarefas que abrangem 19 idiomas Pontuação ROUGE-L para a pergunta gerada. Disponível no watsonx.ai para modelos que suportam francês, alemão, português e espanhol. Cartão do conjunto de dados em Hugging Face
XGLUE.wpr Avalia a capacidade de um modelo de recuperar e classificar textos multilíngues. 11 tarefas que abrangem 19 idiomas. Pontuação de ganho cumulativo descontado normalizado (NDCG) para a recuperação e classificação de informações. Disponível no watsonx.ai para modelos que suportam francês, alemão, português e espanhol. Cartão do conjunto de dados em Hugging Face
XLSum Avalia a capacidade de um modelo de resumir textos multilíngues. 1. 1.35 milhões de resumos anotados profissionalmente de artigos de notícias da BBC em 44 idiomas. Pontuação ROUGE-L para o resumo gerado. Disponível em watsonx.ai para modelos que suportam árabe, francês, japonês, coreano, português e espanhol. Cartão do conjunto de dados em Hugging Face
XMMLU Avalia a capacidade do modelo de responder a perguntas multilíngues sobre matemática elementar, história dos EUA, ciência da computação, direito e muito mais. Traduções do conjunto de dados em inglês do Massive Multitask Language Understanding (MMLU), que consiste em perguntas de múltipla escolha de conhecimento geral. A métrica mede a precisão das respostas. Disponível no watsonx.ai para modelos que suportam árabe, francês e coreano.
XNLI Avalia a capacidade de um modelo de classificar sentenças multilíngues. Subconjunto de dados do conjunto de dados MNLI (Multi-Genre Natural Language Inference), que inclui pares de frases de origem coletiva anotadas com informações de associação textual e traduzidas para 14 idiomas. A métrica mede a precisão das respostas. Disponível em watsonx.ai para modelos que suportam árabe, francês, alemão e espanhol. Cartão do conjunto de dados no GitHub
XNLI com instruções em inglês Avalia a capacidade de um modelo de classificar sentenças multilíngues quando os prompts estão em inglês. Subconjunto de dados do conjunto de dados MNLI (Multi-Genre Natural Language Inference), que tem pares de frases de origem coletiva anotadas com informações de associação textual, traduzidas para 14 idiomas A métrica mede a precisão das respostas. Disponível no watsonx.ai para modelos que suportam o árabe. Cartão do conjunto de dados no GitHub
XWinograd Avalia a capacidade de um modelo de entender o contexto e resolver a ambiguidade em um texto multilíngue. Coleção multilíngue de esquemas de Winograd, que são pares de frases com significados drasticamente diferentes devido a pequenas mudanças de palavras. A métrica mede a precisão das respostas. Disponível no watsonx.ai para modelos que suportam o português. Cartão do conjunto de dados em Hugging Face

 

Referências de código para modelos de fundação

Os benchmarks de código mostram a pontuação de vários modelos de fundação em testes que avaliam a capacidade do modelo de realizar tarefas de codificação programática, como gerar código, explicar código, corrigir código ou traduzir código de uma linguagem de programação para outra.

Esses benchmarks mostram os resultados dos testes realizados pela IBM Research usando conjuntos de dados de avaliação de código publicados por terceiros, como instituições acadêmicas ou equipes de pesquisa do setor.

A tabela a seguir descreve os conjuntos de dados, as metas e as linguagens de programação de destino para os benchmarks de código que estão disponíveis em watsonx.ai.

Referências de código em watsonx.ai
Nome do benchmark Objetivo Descrição do conjunto de dados Métrica Linguagens de programação Informações relacionadas
CanItEdit Avalia a capacidade de um modelo de lidar com diversos cenários de edição de código em Python. 105 problemas instrutivos de edição de código que foram escritos por humanos. Pass@1 Python Artigo de pesquisa
CodeLingua Avalia a capacidade de um modelo de traduzir códigos de uma linguagem de programação para outra. 1.700 amostras de código em várias linguagens programáticas. Pass@1 C++, Go, Java, JavaScript, Python, Rust Artigo de pesquisa
HumanEval Avalia a capacidade de um modelo de gerar código Python, compreender a linguagem, raciocinar e resolver problemas relacionados a algoritmos e matemática simples. 164 Python problemas de programação que foram escritos por humanos. Pass@1 Python Artigo de pesquisa
HumanEvalExplain Avalia a capacidade de um modelo de explicar trechos de código solicitando primeiro que o modelo explique a solução de um problema de programação e, em seguida, testando se o modelo consegue resolver o problema quando recebe apenas a explicação gerada anteriormente. Uma extensão do conjunto de dados HumanEval. Pass@1 C++, Go, Java, JavaScript, Python, Rust Artigo de pesquisa
HumanEvalFix Avalia a capacidade de um modelo de corrigir erros de codificação em trechos de código programático. HumanEval conjunto de dados no qual foram introduzidos erros e testes de unidade que podem ajudar a identificar os problemas. Pass@1 C++, Go, Java, JavaScript, Python, Rust Artigo de pesquisa
HumanEvalSynthesize Avalia a capacidade de um modelo de gerar código. 164 problemas de código do conjunto de dados HumanEval que foram traduzidos por humanos de Python para outras linguagens de programação. Pass@1 Python, C++, Go, Java, JavaScript, Rust Artigo de pesquisa
MBPP Avalia a capacidade de um modelo para resolver problemas de codificação de nível básico Python 974 problemas e soluções de programação Python de origem coletiva. Pass@1 Python Artigo de pesquisa
MBPP+ Avalia a capacidade de um modelo para resolver problemas de codificação do Python. Expande o conjunto de dados do MBPP com mais problemas de programação Python e casos de teste mais abrangentes, projetados para fornecer uma avaliação mais rigorosa. Pass@1 Python Cartão de conjunto de dados

Métricas de referência

Algumas métricas são autoexplicativas, como a pontuação de precisão de um modelo que é testado em conjuntos de dados de múltipla escolha. Outros são menos conhecidos. A lista a seguir descreve as métricas que são usadas para quantificar o desempenho do modelo no watsonx.ai:

F1
Mede se o equilíbrio ideal entre precisão e recuperação foi alcançado. Frequentemente usado para pontuar tarefas de classificação em que a precisão mede quantas das sentenças gerais são classificadas como a classe de sentença correta e a recuperação mede a frequência com que as sentenças que deveriam ser classificadas são classificadas.
Ganho acumulado descontado normalizado (NDCG)
Uma métrica de qualidade de classificação que compara as classificações geradas a uma ordem de referência em que os itens mais relevantes estão no topo da lista de classificação.
ROUGE-L
Usado para pontuar a qualidade das compactações, medindo a semelhança entre o resumo gerado e o resumo de referência. ROUGE é a sigla para Recall-Oriented Understudy for Gisting Evaluation. O L representa a pontuação com base na sequência mais longa de palavras correspondentes. Essa métrica procura correspondências na sequência que refletem a ordem das palavras no nível da frase.
SacreBLEU
O BLEU (Bilingual Evaluation Understudy) é uma métrica para comparar uma tradução gerada com uma tradução de referência. SacreBLEU é uma versão que torna a métrica mais fácil de usar, fornecendo conjuntos de dados de teste de amostra e gerenciando a tokenização de forma padronizada. Geralmente usado para avaliar a qualidade das tarefas de tradução, mas também pode ser usado para pontuar tarefas de resumo.
Segurança
Uma métrica usada com o benchmark AttaQ 500 que combina a métrica do Índice Rand Ajustado (ARI), que considera os rótulos associados a ataques, e a Pontuação de Silhueta, que avalia as características baseadas em cluster, como coesão, separação, distorção e probabilidade. Para obter mais informações, consulte o artigo de pesquisa Unveiling safety vulnerabilities of large language models.
Taxa de vitória
Uma métrica usada com o benchmark Arena-Hard-Auto para mostrar a porcentagem de conversas nas quais as respostas do modelo levam à conclusão bem-sucedida de uma ação. Para obter mais informações, consulte o artigo de pesquisa From crowsourced data to high-quality benchmarks: Arena-Hard e o pipeline do Benchbuilder.