O que é desempenho do modelo?

Carros de corrida de F1 alinhados antes de uma corrida

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

O que é desempenho do modelo?

O desempenho do modelo indica o quão bem um modelo de aprendizado de máquina (ML) executa a tarefa para a qual foi projetado, com base em várias métricas. Medir o desempenho do modelo é essencial para otimizar um modelo de ML antes de liberá-lo para produção e aprimorá-lo após a implementação. Sem a otimização adequada, os modelos podem produzir previsões imprecisas ou não confiáveis e sofrer de ineficiências, levando a um desempenho ruim.

A avaliação do desempenho do modelo ocorre durante os estágios de avaliação e monitoramento do modelo de um pipeline de aprendizado de máquina. Depois que os profissionais de inteligência artificial (IA) trabalham nas fases iniciais dos projetos de ML, eles avaliam o desempenho de um modelo em vários conjuntos de dados, tarefas e métricas para avaliar sua eficácia. Depois que o modelo é implementado, as equipes de operações de aprendizado de máquina (MLOps) monitoram o desempenho do modelo para melhoria contínua.

Fatores que afetam o desempenho do modelo

O desempenho de um modelo de IA geralmente é medido usando um conjunto de testes, comparando as saídas do modelo com as previsões no conjunto de testes de base. Os insights obtidos com a avaliação do desempenho ajudam a determinar se um modelo está pronto para a implementação no mundo real ou se precisa de ajustes ou treinamento adicional.

Aqui estão alguns fatores que podem afetar o desempenho de um modelo de aprendizado de máquina:

  • Qualidade de dados
  • Vazamento de dados
  • Seleção de funcionalidades
  • Adequação do modelo
  • Desvio do modelo
  • Viés

Qualidade de dados

Um modelo é tão bom quanto os dados usados para treiná-lo. O desempenho do modelo é insuficiente quando seus dados de treinamento têm falhas, contendo imprecisões ou inconsistências, como duplicatas, missing values e rótulos ou anotações de dados errados. Uma falta de equilíbrio (como ter muitos valores para um cenário em detrimento de outro ou um conjunto de dados de treinamento que não é suficiente ou diversificado o bastante para capturar correlações corretamente) também pode levar a resultados distorcidos.

Vazamento de dados

O vazamento de dados no aprendizado de máquina ocorre quando um modelo usa informações durante o treinamento que não estariam disponíveis no momento da previsão. Isso pode ser causado por erros de pré-processamento de dados ou contaminação devido à divisão inadequada de dados em conjuntos de treinamento, validação e teste. O vazamento de dados faz com que um modelo preditivo tenha dificuldades ao generalizar dados não vistos, produza resultados imprecisos ou não confiáveis ou aumente ou diminua as métricas de desempenho.

Seleção de funcionalidade

A seleção de funcionalidades envolve escolher as funcionalidades mais relevantes de um conjunto de dados para usar no treinamento do modelo. As funcionalidades dos dados influenciam como os algoritmos de aprendizado de máquina configuram seus pesos durante o treinamento, o que, por sua vez, impulsiona o desempenho. Além disso, a redução do espaço de funcionalidades a um subconjunto selecionado pode ajudar a melhorar o desempenho, reduzindo as demandas computacionais. Entretanto, a escolha de funcionalidades irrelevantes ou insignificantes pode enfraquecer o desempenho do modelo.

Adequação do modelo

O overfitting acontece quando um modelo de ML é muito complexo e se ajusta muito próximo ou até mesmo exatamente aos dados de treinamento; portanto, ele não generaliza bem em novos dados. Por outro lado, o underfitting ocorre quando um modelo é tão simples que não consegue capturar os padrões subjacentes nos dados de treinamento e testes.

Desvio do modelo

O desvio do modelo refere-se à degradação do desempenho de um modelo devido a mudanças nos dados ou nas relações entre variáveis de entrada e saída. Essa deterioração pode impactar negativamente o desempenho do modelo, levando a tomada de decisão falha e previsões ruins.

Viés

O viés na IA pode ser introduzido em qualquer fase de um fluxo de trabalho de aprendizado de máquina, mas é particularmente predominante nos estágios de processamento de dados e desenvolvimento de modelos. O viés de dados ocorre quando a natureza não representativa dos conjuntos de dados de treinamento e ajuste fino afeta adversamente o comportamento e o desempenho do modelo. Enquanto isso, o viés algorítmico não é causado pelo algoritmo em si, mas pela forma como as equipes de ciência de dados coletam e codificam os dados de treinamento e como os programadores de IA projetam e desenvolvem algoritmos de aprendizado de máquina. O viés da IA pode levar a saídas imprecisas e resultados potencialmente prejudiciais.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Métricas de desempenho do modelo

É importante alinhar as métricas com as metas de negócios que um modelo deve atender. Embora cada tipo de modelo de aprendizado de máquina tenha seu próprio conjunto de métricas de avaliação, muitos modelos compartilham algumas medidas em comum:

  • Precisão
  • Recall
  • Precisão
  • Pontuação F1

Precisão

A exatidão é calculada como o número de previsões corretas dividido pelo número total de previsões. Esse percentual é uma métrica muito comum.

A exatidão do modelo e o desempenho do modelo são frequentemente comparados, mas a exatidão do modelo é apenas uma parte do desempenho do modelo. E, embora estejam interligados, previsões precisas por si só não podem fornecer uma visão holística do desempenho de um modelo.

Recall

O recall quantifica o número de verdadeiros positivos, ou seja, as previsões corretas reais. Também é conhecido como taxa de sensibilidade ou taxa de verdadeiros positivos (TPR).

Essa métrica é crítica na área da saúde, por exemplo, ao diagnosticar doenças ou detectar câncer. Um modelo de ML com alto recall pode identificar corretamente casos positivos e, ao mesmo tempo, minimizar falsos negativos (casos positivos reais previstos incorretamente como casos negativos) 

Recall=TPTP+FN

Precisão

Precisão é a proporção de previsões positivas que são positivos reais. Um modelo de aprendizado de máquina com alta precisão pode minimizar falsos positivos (casos negativos reais previstos incorretamente como casos positivos).

Essa métrica é crucial em finanças, por exemplo, ao detectar fraudes. As transações sinalizadas devem de fato ser fraudulentas (verdadeiros positivos), pois sinalizar transações legítimas como fraudulentas (falsos positivos) pode ter consequências negativas.

 Precision=TPTP+FP 

Pontuação F1

A pontuação F1 é a média harmônica de recall e precisão, combinando ambas as métricas em uma única. Ela considera que as duas medidas têm o mesmo peso para equilibrar falsos positivos ou falsos negativos. É especialmente útil para conjuntos de dados desequilibrados, como a detecção de doenças raras, uma vez que os casos negativos superam significativamente os positivos.

 F1=2*Precision*RecallPrecision+Recall 

Muitos frameworks de IA, como o PyTorch baseado no Python, o scikit-learn e o TensorFlow, oferecem funções integradas para calcular a exatidão, o recall, a precisão e a pontuação F1. Eles também fornecem visualizações de previsões de modelo como uma matriz de confusão — uma tabela que representa valores previstos e reais, com caixas que descrevem o número de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.

Diagrama representando a matriz de confusão

Métricas de desempenho do modelo de classificação

Os modelos de classificação classificam os pontos de dados em grupos predefinidos chamados classes. Veja aqui algumas métricas específicas dos modelos de classificação:

  • Curva ROC: uma curva de característica de operação do receptor (ROC) visualiza a proporção de verdadeiros positivos em relação aos verdadeiros negativos. O gráfico representa graficamente a taxa de verdadeiros positivos em relação à taxa de verdadeiros negativos para cada limite usado na classificação do modelo. A estatística da área sob a curva (AUC) surge da curva ROC e mede a probabilidade de um positivo selecionado aleatoriamente ter uma pontuação de confiança mais alta do que um negativo aleatório. AUC-ROC é uma métrica útil para tarefas que envolvem classificação binária (classificação de dados em duas classes exclusivas).
  • Perda logarítmica: a perda logarítmica avalia a confiança das classificações de um modelo, penalizando mais as classificações incorretas confiantes do que as menos confiantes. Isso é particularmente útil ao lidar com saídas probabilísticas, pois os modelos aprendem a ter confiança nas classificações corretas e incerteza nas incorretas. Valores mais baixos de perda logarítmica denotam melhor desempenho.

Métricas de desempenho de modelos de regressão

Os modelos de regressão são empregados para previsões que envolvem valores contínuos, como estimativas de vendas no varejo e previsões de preços de ações. Como esses algoritmos lidam com conceitos quantificáveis, suas métricas medem erros em previsões:

  • O erro absoluto médio (MAE) é calculado como a soma do valor absoluto de todos os erros dividida pelo tamanho da amostra. Ele mede a diferença absoluta média entre o valor previsto e o valor real.

  • O erro quadrático médio (MSE) é calculado como a média das diferenças quadradas entre o valor previsto e o valor real em todas as amostras de treinamento. Calcular a raiz quadrada do erro pune grandes erros e incentiva o modelo a reduzi-los.

  • A raiz do erro quadrático médio (RMSE) é a raiz quadrada do MSE. Calcular a raiz quadrada do erro antes de fazer a média pune erros maiores ainda mais severamente, incentivando novamente os modelos a minimizá-los.

Métricas de desempenho de modelos de processamento de linguagem natural

Essas métricas avaliam o desempenho dos modelos de processamento de linguagem natural (NLP). Elas também são usadas como benchmarks para grandes modelos de linguagem (LLMs).

Aqui estão algumas medidas quantitativas de modelos de NLP:

  • A perplexidade mede a qualidade de um modelo na previsão. Quanto menor a pontuação de perplexidade de um LLM, melhor compreende uma tarefa.

  • O BLEU (Bilingual evaluation understudy) avalia a tradução automática calculando os n-gramas correspondentes (uma sequência de n símbolos de texto adjacentes) entre a tradução prevista de um LLM e uma tradução produzida por humanos.

  • O ROUGE (recall-oriented understudy for gisting evaluation) avalia o resumo de textos e tem vários tipos. O ROUGE-N, por exemplo, faz cálculos semelhantes ao BLEU para resumos, enquanto o ROUGE-L calcula a subsequência comum mais longa entre o resumo previsto e o resumo produzido por seres humanos.

As métricas qualitativas abrangem medidas como coerência, relevância e significado semântico e geralmente envolvem avaliadores humanos que examinam e pontuam os modelos. Um equilíbrio de métricas quantitativas e qualitativas pode proporcionar uma avaliação mais sutil .

Métricas de desempenho de modelos de computer vision

Os modelos de computer vision, particularmente aqueles para segmentação de instâncias e detecção de objetos, são avaliados usando estas duas medidas comuns de desempenho:

  • A intersecção sobre a união (IoU) calcula a razão da área de interseção sobre a área de união. A interseção abrange as seções sobrepostas entre uma caixa delimitadora que demarca um objeto detectado, conforme previsto por um modelo, e o objeto real. A união denota a área total da caixa delimitadora e do objeto real. Os modelos de computer vision usam a IoU para avaliar a precisão da localização de objetos detectados.

  • A precisão média (mAP) calcula a média de todas as pontuações médias de precisão entre as classes de objetos. Os modelos de computer vision usam a IoU para avaliar a precisão da previsão e da detecção.

Estratégias para melhorar o desempenho dos modelos

A maioria das técnicas para otimizar o desempenho do aprendizado de máquina é implementada durante o desenvolvimento, o treinamento e a avaliação do modelo. No entanto, uma vez que um modelo é implementado no mundo real, seu desempenho deve ser constantemente rastreado. O monitoramento do modelo informa as decisões sobre como melhorar o desempenho ao longo do tempo. 

O refinamento do desempenho do modelo de ML envolve uma ou mais destas técnicas:

  • Pré-processamento de dados
  • Prevenção de vazamento de dados
  • Escolha das funcionalidades certas
  • Ajuste de hiperparâmetros
  • Aprendizado colaborativo
  • Transferir aprendizado
  • Obtenção da adequação ideal do modelo
  • Proteção contra desvios do modelo
  • Como lidar com o viés

Muitos frameworks de IA têm funcionalidades criadas previamente compatíveis com a maioria dessas técnicas.

Pré-processamento de dados

Estabelecer e manter procedimentos rigorosos de pré-processamento ou preparação de dados pode ajudar a evitar problemas de qualidade de dados. Embora a limpeza de dados, a redução de ruído e a normalização de dados sejam os pilares do pré-processamento de dados, os cientistas de dados também podem usar ferramentas de automação de dados e até mesmo ferramentas impulsionadas por IA para economizar tempo e esforço e evitar erros humanos. Para conjuntos de dados insuficientes ou desequilibrados, dados sintéticos podem preencher as lacunas.

Como evitar o vazamento de dados

O tratamento cuidadoso dos dados é fundamental para evitar vazamentos. Os dados devem ser divididos corretamente em conjuntos de treinamento, validação e teste, com o pré-processamento feito separadamente para cada conjunto.

A validação cruzada também pode ajudar. A validação cruzada divide os dados em vários subconjuntos e usa outros diferentes para treinamento e validação em um número definido de iterações.

Escolha das funcionalidades certas

A seleção de funcionalidades pode ser desafiadora e requer experiência no domínio para identificar as funcionalidades mais essenciais e influentes. É importante entender o significado de cada funcionalidade e examinar a correlação entre as funcionalidades e a variável-alvo (a variável dependente que um modelo é encarregado de prever).

Os métodos de seleção de funcionalidades para aprendizado supervisionado incluem métodos wrapper e métodos incorporados. Os métodos wrapper treinam um algoritmo de aprendizado de máquina com diferentes subconjuntos de funcionalidades, adicionando ou removendo-os e testando os resultados a cada iteração para determinar o conjunto de recursos que leva ao desempenho ideal do modelo. Os métodos incorporados integram a seleção de funcionalidades ao treinamento do modelo, identificando funcionalidades de baixo desempenho e eliminando-as de iterações futuras.

Com o aprendizado não supervisionado, os modelos descobrem as funcionalidades, padrões e relacionamentos dos dados por conta própria. Os métodos de seleção de funcionalidades para aprendizado não supervisionado incluem análise de componentes principais (PCA), análise de componentes independentes (ICA) e autocodificadores.

Ajuste de hiperparâmetross

O ajuste de hiperparâmetros, também conhecido como otimização de hiperparâmetros ou ajuste do modelo, identifica, seleciona e otimiza os hiperparâmetros de um modelo de deep learning para conseguir o melhor desempenho no treinamento. Os hiperparâmetros regem o processo de aprendizado de um modelo, e encontrar a combinação e a configuração certas de hiperparâmetros pode fortalecer o desempenho do modelo no mundo real.

Os métodos comuns de ajuste de hiperparâmetros incluem pesquisa em grade, pesquisa aleatória, otimização bayesiana e hiperbanda. Os cientistas de dados também podem implementar métodos automatizados para descobrir algoritmicamente os hiperparâmetros ideais que se ajustam a seu caso de uso.

Aprendizado colaborativo

O aprendizado de conjunto combina vários modelos para aprimorar o desempenho preditivo, com a suposição de que um coletivo ou conjunto de modelos pode produzir previsões melhores do que um único modelo sozinho.

Veja a seguir algumas técnicas de aprendizado de conjunto populares:

  • Bagging, também chamado de agregação bootstrapping, treina modelos em paralelo e independentes uns dos outros. Em seguida, utiliza a média (para tarefas de regressão) ou a maioria (para problemas de classificação) das previsões para calcular uma estimativa mais precisa.

Diagrama que descreve o bagging no contexto do aprendizado de conjunto.
  • O boosting treina modelos sequencialmente, corrigindo erros passados em cada iteração. Ele dá mais peso a instâncias errôneas ou mal classificadas nos modelos seguintes, concentrando-se, assim, em pontos de dados desafiadores e melhorando o desempenho ao longo do caminho.

Diagrama que descreve o boost no contexto de aprendizado colaborativo.
  • O empilhamento treina modelos do mesmo conjunto de dados, mas aplica um algoritmo de treinamento diferente para cada um. Em seguida, usa as previsões compiladas ou empilhadas para treinar um modelo final.

Diagrama que descreve o stacking no contexto de aprendizado colaborativo

Aprendizado por transferência

O aprendizado por transferência pega o conhecimento adquirido por um modelo pré-treinado em uma tarefa ou conjunto de dados inicial e o aplica a uma tarefa ou conjunto de dados de destino novo, mas relacionado. O reaproveitamento de um modelo pré-treinado para uma tarefa diferente aumenta os recursos de generalização desse modelo, ajudando a otimizar o desempenho.

Obtenção da adequação ideal do modelo

Gerenciar overfitting e underfitting é um desafio central no aprendizado de máquina. Um modelo de ajuste otimizado reconhece com precisão padrões nos dados sem ser muito sensível a flutuações ou ruídos aleatórios.

As técnicas para evitar o overfitting e underfitting incluem encontrar a duração de treinamento correta para dar aos modelos tempo suficiente para aprender, aumento de dados para expandir o conjunto de treinamento e regularização para reduzir a variância em um modelo aplicando uma penalidade aos parâmetros de entrada com coeficientes maiores.

Proteção contra o desvio do modelo

A detecção de desvio, um aspecto essencial do monitoramento e da observabilidade do modelo, pode ajudar a proteger contra o desvio do modelo. Por exemplo, os detectores de desvio de IA reconhecem automaticamente quando a exatidão de um modelo diminui ou fica abaixo de um limite predefinido, enquanto as ferramentas de monitoramento observam continuamente os cenários de desvio.

Quando o desvio é detectado, os modelos de ML podem ser atualizados em tempo real ou retreinados usando um novo conjunto de dados contendo amostras mais recentes e relevantes.

Como lidar com o viés

A mitigação do viés da IA começa com a governança de IA, que engloba proteções, processos e normas que ajudam a garantir que os sistemas e as ferramentas de IA sejam éticos e seguros. Aqui estão algumas práticas de IA responsável que podem proteger contra o viés:

  • Diversifique as fontes de dados e inclua dados representativos de uma ampla variedade de condições, contextos e dados demográficos.
  • Cultive equipes diversas para promover o projeto e o desenvolvimento de IA inclusiva.
  • Empregue técnicas de IA explicável para transparência, como Local Interpretable Model-Agnostic Explanations (LIME), para explicar a previsão de classificadores por algoritmos de ML, e Shapley Additive Explanations (SHAP), para explicar a saída de qualquer modelo de ML.
  • Incorporar métricas de justiça no processo de desenvolvimento e use ferramentas e frameworks de justiça algorítmica.
  • Realize auditorias regulares para avaliar os dados e os algoritmos em busca de vieses.
  • Implemente o monitoramento contínuo do desempenho dos modelos de ML implementados para detectar e corrigir rapidamente vieses nos resultados.
Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real