Imagine que uma empresa contrate um novo funcionário. Seu currículo é excelente, e ele conclui todas as suas tarefas com rapidez e eficiência. Tecnicamente, o trabalho dele está sendo feito, mas será que está sendo bem feito? Ele é de alta qualidade, preciso e confiável?
Como acontece com qualquer nova contratação, os gerentes dedicam um tempo para avaliar seu trabalho para garantir que ele atenda aos padrões da empresa e tenha um desempenho adequado. Conforme a inteligência artificial (IA) desempenha um papel maior na produção e nas decisões de negócios, as empresas precisam fazer o mesmo pelos LLMs.
Os grandes modelos de linguagem (LLMs) são modelos de base treinados com imensas quantidades de dados e usados para tarefas relacionadas à compreensão e à geração de texto. Por exemplo, esse tipo de sistema de IA é especialmente útil para trabalhos como criação de conteúdo, sumarização e análise de sentimentos.
Os LLMs revolucionaram o campo do processamento de linguagem natural (NLP) e trouxeram a IA generativa à atenção do público de novas maneiras. O Chat GPT-3 e o GPT-4 da OpenAI, juntamente com o Llama da Meta, são os exemplos mais conhecidos, mas uma grande variedade de LLMs é usada em vários domínios. Os LLMs alimentam ferramentas de IA , como chatbots, assistentes virtuais, ferramentas de tradução de idiomas e sistemas de geração de código.
À medida que as aplicações de LLMs são adotadas de forma mais ampla, especialmente para uso em setores de alto risco, como saúde e finanças, testar seus resultados é cada vez mais importante. É aí que entra a avaliação de LLMs.
A avaliação de LLMs é o processo de avaliação do desempenho e dos recursos de grandes modelos de linguagem. Às vezes chamada simplesmente de "aval de LLMs", ela envolve os testes desses modelos em várias tarefas, conjuntos de dados e métricas para avaliar sua eficácia.
Os métodos de avaliação podem usar benchmarks automatizados e avaliações conduzidas por seres humanos para encontrar os pontos fortes e fracos de um LLM. O processo envolve comparar as produções do modelo com dados da verdade absoluta (informações que são consideradas verdadeiras) ou respostas geradas por seres humanos para determinar a precisão, coerência e confiabilidade do modelo. Os resultados da avaliação do LLMs ajudam pesquisadores e desenvolvedores a identificar áreas de melhoria. Os processos de avaliação também são um componente central das operações de grandes modelos de linguagem, ou LLMOps, que envolvem o gerenciamento operacional de LLMs.
Como os LLMs desempenham papéis maiores na vida cotidiana, avaliá-los ajuda a garantir que estejam operando conforme o esperado. Além das necessidades técnicas, a aval LLM também ajuda a construir confiança entre usuários e stakeholders.
A avaliação de LLMs pode ajudar com:
A avaliação de LLMs mostra se o modelo está funcionando conforme o esperado e gerando resultados de alta qualidade em suas tarefas e domínios. Além da funcionalidade básica, a avaliação pode revelar nuances de compreensão da linguagem, qualidade de geração e proficiência específica de tarefas. Ela também pode identificar possíveis pontos fracos, como lacunas de conhecimento ou inconsistências no raciocínio, o que permite que pesquisadores e desenvolvedores direcionem melhor as melhorias.
À medida que são desenvolvidos, os LLMs são influenciados por vieses humanos, especialmente por meio de dados de treinamento. A avaliação é uma maneira de identificar e mitigar possíveis preconceitos ou imprecisões nas respostas do modelo. O foco na ética da IA ajuda a proteger contra a tecnologia que perpetua as desigualdades sociais e apoia resultados factuais.
A avaliação de LLMs permite que as pessoas comparem o desempenho de diferentes modelos e escolham o melhor para seu caso de uso específico. Ela oferece um meio padronizado de comparar resultados de métricas de desempenho bruto com fatores como eficiência computacional e escalabilidade.
Os insights obtidos com a avaliação de LLMs podem orientar o desenvolvimento de novos modelos. Eles ajudam os pesquisadores a encontrar maneiras de criar novas técnicas de treinamento, projetos de modelos ou recursos específicos.
A avaliação de LLMs apoia a transparência no desenvolvimento e cria confiança na produção. Como resultado, ajuda as organizações a definir expectativas realistas e promover a confiança nas ferramentas de IA.
Embora intimamente relacionadas, a avaliação de LLMs e a avaliação de sistemas de LLMs têm focos distintos.
A avaliação de LLMs (que também pode ser chamada de avaliação do modelo de LLMs) avalia o desempenho de um modelo. Ela analisa o modelo de linguagem fundamental em si, concentrando-se em sua capacidade de entender e gerar texto em várias tarefas e domínios. A avaliação do modelo normalmente envolve testar os recursos brutos do modelo. Esses recursos incluem a compreensão da linguagem, a qualidade dos resultados gerados e o desempenho específico de tarefas.
A avaliação do sistema de LLMs é mais abrangente e fornece insights sobre o desempenho de ponta a ponta da aplicação impulsionada por LLM. A avaliação do sistema analisa todo o ecossistema que é construído em torno de um LLM. Esse esforço inclui escalabilidade, segurança e integração com outros componentes, como APIs ou bancos de dados.
Resumindo, a avaliação do modelo se concentra em garantir que o LLM funcione para tarefas específicas, enquanto a avaliação do sistema é uma visão mais holística de seu uso e eficácia geral. Ambas são essenciais para o desenvolvimento de aplicações de LLMs robustas e eficazes.
A primeira etapa na avaliação de LLMs é definir os critérios gerais de avaliação com base no uso pretendido do modelo. Existem inúmeras métricas usadas para avaliação, mas algumas das mais comuns incluem:
Calcula o percentual de respostas corretas em tarefas como classificação ou respostas a perguntas.
Mede o número real de positivos verdadeiros, ou previsões corretas, em comparação com os falsos nas respostas do LLM.
Combina precisão e recall em uma métrica. As pontuações do F1 variam de 0 a 1, com 1 significando excelente recall e precisão.
Avalia o fluxo lógico e a consistência do texto gerado.
Mede a capacidade do modelo de prever uma sequência de palavras ou uma amostra de texto. Quanto mais consistentemente o modelo prevê o resultado correto, menor é sua pontuação de perplexidade.
Avalia a qualidade do texto gerado por máquina, especialmente em tarefas de tradução.
Avalia a qualidade dos resumos de texto ao compará-los com aqueles criados por seres humanos.
Mede a eficiência e a velocidade geral do modelo.
Mede a presença de conteúdo nocivo ou ofensivo nas produções do modelo.
Os avaliadores de LLMs estabelecem critérios de avaliação claros e, em seguida, selecionam um framework que oferece uma metodologia abrangente para avaliar o desempenho de um modelo. Por exemplo, a framework de avaliação de modelos de base (aval-FM) da IBM é usada para validar e avaliar novos LLMs de maneira sistemática, reproduzível e consistente.
Dentro de frameworks de avaliação estão os benchmarks de LLMs, que são conjuntos de dados ou tarefas padronizados usados para analisar os resultados e orientar o processo de avaliação. Enquanto os frameworks definem como avaliar um LLM, os benchmarks definem o que avaliar — em outras palavras, as tarefas e dados específicos.
Os benchmarks de LLMs consistem em conjuntos de dados de amostra, tarefas e modelos de prompts para testar LLMs em habilidades específicas, como respostas a perguntas, tradução automática, sumarização e análise de sentimentos. Eles também incluem métricas para avaliar o desempenho e um mecanismo de pontuação. Os critérios de avaliação deles podem ser baseados na verdade absoluta ou em preferências humanas.
Ao avaliar os LLMs nesses benchmarks, os desenvolvedores podem comparar o desempenho de diferentes modelos e acompanhar o progresso ao longo do tempo. Alguns exemplos de benchmarks de LLMs amplamente utilizados incluem:
Os benchmark selecionados são introduzidos no LLM por meio de testes zero-shot, few-shot e ajuste fino para ver como o modelo opera. Com testes few-shot, o LLM é avaliado quanto à sua capacidade de funcionar com dados limitados depois de receber um pequeno número de exemplos rotulados que demonstram como cumprir a tarefa. Os testes zero-shot pedem ao LLM que conclua uma tarefa sem exemplos, testando como ele se adapta a novas circunstâncias. E o ajuste fino treina o modelo em um conjunto de dados semelhante ao benchmark para melhorar o comando do LLM em uma tarefa específica.
Os resultados da avaliação de LLMs podem ser usados para refinar e iterar o modelo, ajustando os parâmetros, fazendo o ajuste fino ou até mesmo treinando novamente com novos dados.
Ao avaliar as produções do modelo, os desenvolvedores e pesquisadores usam duas abordagens: LLM-as-a-judge e human-in-the-loop.
Na avaliação LLM-as-a-judge, o próprio LLM é usado para avaliar a qualidade de suas próprias produções. Por exemplo, isso pode incluir a comparação do texto gerado por um modelo com um conjunto de dados da verdade absoluta ou o uso de métricas como perplexidade ou F1 para medir os resultados.
Para uma abordagem human-in-the-loop, os avaliadores humanos mensuram a qualidade das produções do LLM. Esse tipo de avaliação pode ser útil para avaliações mais sutis, como coerência, relevância e experiência do usuário, que são difíceis de capturar apenas por meio de métricas automatizadas.
A avaliação de LLMs tem muitos casos de uso práticos. Alguns exemplos incluem:
Na geração aumentada de recuperação (RAG), a avaliação de LLMs pode ajudar a testar a qualidade das respostas geradas pelo modelo. Os pesquisadores podem usar conjuntos de dados como o SQuAD (Stanford Question Answering Dataset) ou o TruthfulQA para verificar a precisão de um sistema de perguntas e respostas impulsionado por LLMs, comparando as respostas do modelo com as respostas da verdade absoluta.
Usando métricas como o BLEU e avaliação humana, os pesquisadores podem testar a qualidade das respostas de texto oferecidas por chatbots ou sistemas de tradução automática. Isso ajuda a garantir que o texto gerado seja fluente, coerente e adequado ao contexto.
Usando conjuntos de dados e métricas especializados, os pesquisadores podem avaliar a presença de vieses e conteúdo tóxico no texto gerado por LLMs. Por exemplo, o conjunto de dados ToxiGen pode ser usado para avaliar a toxicidade das produções do modelo, o que pode levar a aplicações mais seguras e inclusivas.
Os pesquisadores podem usar conjuntos de dados de benchmark, como o GLUE ou SuperGLUE, para comparar o desempenho de diferentes LLMs em várias tarefas de NLP, como análise de sentimentos ou reconhecimento de entidade nomeada.
Nesses e em outros casos de uso, a avaliação de LLMs pode trazer benefícios importantes para as empresas. Ao identificar áreas de melhoria e oportunidades para lidar com os pontos fracos, a avaliação de LLMs pode levar a uma melhor experiência do usuário, menos riscos e uma vantagem competitiva potencial.
Apesar de todos os seus benefícios, a avaliação de LLMs também enfrenta alguns desafios e limitações. O ritmo acelerado do desenvolvimento de LLMs dificulta o estabelecimento de benchmarks padronizados e duradouros. Avaliar a compreensão contextual é desafiador, assim como detectar as nuances mais sutis do viés.
A explicabilidade também é um problema: os LLMs geralmente são vistos como "caixas-pretas", dificultando a interpretação de seu processo de tomada de decisões para fins de avaliação e para identificar os fatores que contribuem para suas produções.
Além disso, muitos conjuntos de dados de avaliação não são representativos de vários idiomas ou culturas. Como resultado, os modelos testados com esses conjuntos de dados podem ter um bom desempenho em benchmarks específicos, mas, mesmo assim, falhar em cenários do mundo real.
À medida que os LLMs e outras aplicações complexas de aprendizado de máquina continuam sendo desenvolvidos e aplicados de novas maneiras, superar esses desafios para garantir uma avaliação robusta desempenhará um papel importante em ajudar avaliadores e desenvolvedores a melhorar a eficácia, a segurança e o uso ético de LLMs.
Gerencie as atividades de IA de sua organização e acesse recursos poderosos de governança, risco e conformidade.
A IBM Consulting trabalha com clientes para criar uma estratégia de IA responsável e transparente, apoiada por frameworks de governança organizacionais.
Escale a inteligência artificial para mais partes de sua empresa com maior confiança e resultados mais robustos.