Visão aérea de maçãs movendo-se através de uma instalação de processamento, com uma mão segurando uma única maçã em primeiro plano

O que é avaliação de modelos?

Definição de avaliação de modelos

A avaliação do modelo refere-se ao processo de medir o desempenho de um modelo de aprendizado de máquina. Esse processo faz a pergunta: quando seu modelo faz um julgamento sobre o mundo real, com que frequência ele está certo? Ou, em casos em um espectro, quão próximo de estar certo ele estava?

O custo de entender errado

Cada vez mais, o dinheiro real está em jogo com a dependência das empresas dos modelos de IA. Em fevereiro de 2021, os líderes da Zillow fizeram uma grande aposta com base em seus modelos de aprendizado de máquina que previam os valores das casas. Além de fazer essas estimativas, muitas vezes a própria Zillow comprava as casas que seu modelo precificava, por meio de uma empresa associada chamada Zillow Offers.

Apenas oito meses depois, a Zillow encerrou as atividades da Zillow Offers e registrou uma baixa contábil de US$ 304 milhões. A causa, segundo a empresa, foi a compra de muitas casas por preços acima do que acreditava ser o valor pelo qual poderia vendê-las. As ações da empresa despencaram e a Zillow demitiu cerca de 25% de sua equipe.

E a culpa? Seu modelo de IA não era preciso o suficiente para enfrentar o futuro do mercado. Suas previsões e estimativas não corresponderam aos valores reais dos imóveis.1

À medida que os modelos de ML se espalham pelos setores de saúde, contratação e justiça criminal, o custo de uma avaliação ruim pode causar danos reais a pessoas reais. Na ciência de dados e setores, acertar as métricas de avaliação dos modelos tornou-se uma parte importante da implementação responsável da IA.

Tipos de modelos e métricas

Diferentes modelos são projetados para realizar funções diferentes.

Os modelos de classificação rotulam os dados recebidos como pertencentes a uma das poucas categorias. (Um modelo que sinaliza um paciente como tendo sepse ou não é um modelo de classificação.)

Os modelos de regressão, por sua vez, geram um número dentro de uma escala contínua. (O modelo de preços de imóveis da Zillow era um modelo de regressão.)

Os diferentes tipos de modelos exigem diferentes tipos de testes. Muitas vezes, a triangulação do desempenho por meio de várias métricas é ideal, pois nenhuma métrica está isenta de incertezas.

Modelos de classificação e métricas de classificação

Alguns modelos lidam com "problemas de classificação", o que significa que eles dividem o mundo em categorias. As métricas de classificação são igualmente pouco precisas.A precisão do modelo é bastante intuitiva: ela pega o número de previsões corretas e divide esse número pelo número total. (Em aprendizado de máquina, a palavra "previsão" refere-se às suposições fundamentadas que os modelos fazem, mesmo que a suposição seja sobre algo que está acontecendo agora, em vez de no futuro.)

O problema com a precisão do modelo é que um número alto pode levar os stakeholders a uma falsa sensação de segurança. Um modelo projetado para detectar um evento raro, porém catastrófico (por exemplo, um certo tipo de câncer) pode classificar automaticamente todos os exames como negativos. O modelo apresentaria alta precisão, pois 99,99% dessas leituras negativas estariam corretas. Mas essa alta precisão seria um consolo muito pequeno para o pobre paciente que recebesse o raro resultado falso negativo. O modelo era preciso em termos técnicos, mas não cumpria sua função.

Torna-se útil dividir o desempenho de um modelo de classificação nos tipos de previsões, ou suposições fundamentadas, que ele faz. Em uma tarefa de classificação binária, como a detecção de câncer, existem quatro resultados possíveis (quando dispostos em uma grade 2x2, essa estrutura é frequentemente chamada de "matriz de confusão"):

  1. Verdadeiros positivos (câncer detectado com precisão)
  2. Verdadeiros negativos (câncer descartado com precisão)
  3. Falsos positivos (câncer detectado, mas foi impreciso)
  4. Falsos negativos (câncer não detectado, mas foi impreciso)

Já se começa a ver por que vale a pena detalhar essas categorias. Um diagnóstico de câncer falso positivo seria, sem dúvida, traumático, até que testes adicionais revelassem que o episódio foi um susto médico. Mas um resultado falso negativo pode ser letal.

Os profissionais de ciência de dados desenvolveram uma série de submétricas para analisar o desempenho dos classificadores e avaliar as relações entre os quadrantes da matriz de confusão.

A métrica chamada precisão pergunta: de todas as previsões positivas que um classificador fez, quantas estavam corretas?

Um algoritmo de reconhecimento de imagens instalado em um carro passa por 10 cruzamentos em um percurso de teste, seis dos quais têm placas de pare. No entanto, dizer que um modelo "detectou todas as seis placas de pare" seria omitir as principais diferenças potenciais de precisão. Se o sistema identificasse corretamente todos os seis casos e não produzisse falsos positivos, então teria uma precisão de 6/6, ou 100%. No entanto, se sinalizou essas seis mas também alucinou quatro placas de pare que não estavam lá, sua precisão foi de apenas 6/10, ou meros 60%.

A métrica chamada recall (também conhecida como "taxa de verdadeiros positivos") mede algo ligeiramente diferente. O recall pergunta: de todas as placas de pare que realmente estavam lá, quantas o modelo detectou?

Imagine outro campo de teste com 100 cruzamentos, 50 dos quais com placas de pare. Um modelo que detectasse 30 dessas placas de pare teria um recall de 60%; 40 delas, 80%; e assim por diante. (O recall não se preocupa com alarmes falsos, então, em teoria, pode-se “jogar” com 100% de recall ensinando um modelo a ver placas de pare em todos os lugares).

Essas duas métricas, precisão e recall, existem em tensão. Um engenheiro que busca melhorar o recall pode exagerar na tentativa, criando um modelo que frequentemente gera falsos positivos. Frequentemente, ajustar um modelo equivale a gerenciar compensações entre maior recall (obter todo o fenômeno que se deseja detectar) e uma menor precisão (exagerar e detectar falsos positivos também).

Ao gerenciar essa troca, os profissionais de aprendizado de máquina geralmente usam uma métrica chamada pontuação F1, que é uma "média harmônica" de precisão e recall. (Uma média harmônica difere da média mais tradicional por ser desproporcionalmente afetada por valores baixos. Portanto, uma pontuação F1 cai rapidamente se a precisão ou o recall forem baixos.)

Uma pontuação de F1 perfeita seria 1,0, mas, infelizmente, não há uma diretriz única sobre o que é uma pontuação de F1 suficientemente alta, e o contexto é muito importante.2 O que está claro é que uma pontuação F1 mais alta é melhor. Quanto mais próximo de 1,0, melhor esse modelo consegue detectar efetivamente o que deve ser detectado, minimizando os falsos positivos e os falsos negativos.3

Métricas de classificação relacionadas à confiança e aos limites

Dentro das métricas de classificação, duas métricas envolvem os conceitos relacionados de confiança e limites.

Um modelo não se limita a dizer "placa de pare" ou "não é uma placa de pare". Em vez disso, diz algo como: "Há 98% de chance de que esta seja uma placa de pare" (uma previsão com alto grau de confiança). Ou diz: "Há 51% de chance de que isso seja uma placa de pare" (uma previsão não muito confiante).

A métrica conhecida como perda logarítmica foi criada para avaliar a confiança de um modelo. Erros cometidos com muita confiança acarretam uma grande penalização. A baixa confiança em previsões corretas também é penalizada, embora em menor grau. Um modelo perfeito teria uma pontuação de 0 na perda logarítmica, embora isso raramente seja alcançado. Novamente, o que constitui uma pontuação "boa" depende do seu modelo e do tipo de tarefa.

Seja qual for a pontuação de confiança de um modelo, os usuários humanos de modelos de ML devem, em última análise, decidir sobre um limite para transformar os palpites de um modelo em decisões finais de sim ou não. Um limite poderia instituir a regra: "se >75% de confiança, então diga 'sim, é uma placa de pare'." Mas um usuário humano também poderia escolher um limite de 51% de confiança ou 98% de confiança. As respostas resultantes do modelo podem, é claro, variar muito dependendo do limite escolhido.

Uma curva ROC (sigla para a frase técnica "característica de operação do receptor") e a métrica relacionada ROC AUC (ou "área sob a curva") examinam o desempenho do modelo em muitos limites diferentes. Tecnicamente, uma curva ROC representa graficamente a taxa de verdadeiros positivos (TPR) em relação à taxa de falsos positivos (FPR) à medida que o limite varia. Conceitualmente, o ROC AUC deixa de lado os julgamentos em qualquer ponto de corte específico, observando, em vez disso, se um modelo é bom na classificação: "Independentemente de onde definimos o limite, o modelo está pelo menos produzindo consistentemente pontuações de confiança mais altas quando as placas de pare estão realmente presentes?" O ROC AUC resume essa capacidade geral de separar os pontos positivos dos negativos.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Modelos de regressão e métricas de regressão

A seção anterior trata de problemas de "classificação", em que um fenômeno (seja uma placa de pare ou um câncer) está claramente presente ou não. Mas muitos fenômenos (valores imobiliários, níveis de glicose de um paciente) ocorrem em um espectro, exigindo modelos diferentes e medidas de desempenho distintas. Os modelos que lidam com esses fenômenos produzem números em vez de categorias. Eles são chamados de modelos de regressão e são avaliados com métricas de regressão, que perguntam de várias maneiras: "Quão longe da marca está esse número?"

O erro absoluto médio (MAE) pergunta: "Em média, a que distância estávamos?" Se um modelo esta semana pensa que uma casa será vendida por USD 500.000 e ela é vendida por USD 525.000, e na próxima semana ele pensa que uma casa será vendida por USD 400.000 e ela é vendida por USD 390.000, seu MAE é de USD 17.500 (25.000 + 10.000, dividido por 2). O MAE ignora se um modelo está consistentemente superestimando ou subestimando suas previsões. Ele simplesmente analisa a distância média em relação à verdade.

A raiz do erro quadrático médio (RMSE) é semelhante, mas atribui uma penalidade mais severa aos números que estavam muito longe do valor real. Isso é conseguido elevando os erros ao quadrado, o que faz com que erros grandes sejam ainda maiores, antes de calcular a raiz quadrada da média resultante. A RMSE no exemplo anterior é de USD 19.039. (O MSE, ou erro quadrático médio, funciona de forma semelhante, mas sem a raiz quadrada, tornando-o menos interpretável, embora às vezes matematicamente útil.) A RMSE é útil quando erros grandes são especialmente caros.

Uma métrica menos intuitiva é o R-quadrado. O R-quadrado não mede o quão longe as previsões de um modelo estavam, mas sim o quanto da variação geral da variável-alvo o modelo conseguiu explicar.

Para ter uma ideia do que é o R-quadrado, imagine primeiro um modelo simplificado de preços de imóveis que produza o mesmo valor para cada casa: o preço médio da região. O R-quadrado pergunta: o quanto nosso modelo é melhor do que simplesmente a estimativa média? Quanto melhor o modelo captura a variância dos preços reais, maior é seu R-quadrado. (Um R-quadrado de 0,85 significa que o modelo explica cerca de 85% da variação no resultado; um R-quadrado de 0 significa que não é melhor do que o modelo de média preditiva).

Como todas as métricas, o R-quadrado é imperfeito. Ela é particularmente fraca com dados que contêm valores discrepantes.

 

Desafios e problemas na avaliação de modelos

Nem todo aluno que é aprovado em um teste realmente aprendeu a matéria. O aluno pode ter memorizado os cartões de memorização, mas não internalizado os conceitos. O aluno pode ter colado, vendo a prova com antecedência. O aluno pode simplesmente ter tido sorte. O mesmo ocorre com os modelos de aprendizado de máquina.

Quando os dados são limitados

Um erro rudimentar na avaliação de modelos de aprendizado de máquina seria testar o modelo com os mesmos dados usados para o treinamento do modelo. O modelo pode ter um desempenho muito bom, mas simplesmente porque, essencialmente, memoriza os dados. Ele não conseguiu generalizar qualquer aprendizado sobre o fenômeno subjacente que deveria detectar, e é provável que falhe quando encontrar novos dados no mundo real. O termo técnico para esse comportamento semelhante à memorização é sobreajuste.

A proteção usual é chamada de divisão treino-teste: divide-se os dados disponíveis em um conjunto do qual o modelo pode aprender (dados de treinamento) e outra parte que ele não pode ver até o teste (o conjunto de teste). Mas essa proteção também pode gerar resultados imperfeitos, pois uma divisão infeliz pode distorcer os resultados dos testes do modelo. Além disso, se os dados forem limitados, existe um dilema difícil entre usar os dados para treinamento e preservá-los para teste.

Os profissionais de ML lidam com esses problemas com validação cruzada. Com a validação cruzada, um conjunto de dados é dividido nas chamadas dobras. A maioria das dobras é usada para treinar o modelo, enquanto uma é reservada para testá-lo. Em seguida, o processo é repetido em uma nova cópia do modelo, com as dobras rotacionadas; uma dobra diferente agora é o conjunto de teste. As pontuações dos testes obtidos nessas diversas rodadas são calculadas em média. Essa abordagem fornece uma estimativa mais estável de quão bem o modelo provavelmente se comportará com novos dados, além de aproveitar melhor um conjunto de dados limitado (porque cada ponto de dados pode ser usado para treinamento em um contexto e para teste em outro).

Em última análise, se nenhum dos modelos candidatos tiver um desempenho suficientemente bom, os profissionais podem tentar o ajuste de hiperparâmetros (ajustando configurações incorporadas, como profundidade do modelo ou taxa de aprendizado) para ver se o desempenho melhora.

Em Python, bibliotecas como o scikit-learn tornam a validação cruzada simples de implementar, uma das razões pelas quais ela se tornou uma prática padrão.

Quando a "resposta certa" não é clara

Às vezes, a chamada "verdade fundamental" é clara: o paciente tem ou não tem câncer; a casa foi vendida por este ou aquele valor. Mas com o advento dos grandes modelos de linguagem (LLMs), o desempenho do modelo costuma ser menos claro ou fácil de medir.

Um chatbot baseado em LLM pode enfrentar algumas tarefas binárias, como acertar ou errar fatos. Mas seu usuário também pode avaliá-lo em muitas dimensões diferentes e difíceis de definir, como facilidade de uso ou utilidade. Nesses casos, não há uma única resposta correta, não há "valores verdadeiros" para benchmark. A anotação humana é considerada o padrão ouro para avaliar as respostas dos LLM, mas é um método que não é escalável.

Em última análise, nesses casos, a avaliação final do modelo pode vir do lançamento do modelo em um ambiente real e da observação de se os usuários obtêm valor dele ou não.

Autora

David Zax

Staff Writer

IBM Think

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

  1. Explore o watsonx.ai
  2. Agende uma demonstração em tempo real