O desempenho do modelo indica o quão bem um modelo de aprendizado de máquina (ML) executa a tarefa para a qual foi projetado, com base em várias métricas. Medir o desempenho do modelo é essencial para otimizar um modelo de ML antes de liberá-lo para produção e aprimorá-lo após a implementação. Sem a otimização adequada, os modelos podem produzir previsões imprecisas ou não confiáveis e sofrer de ineficiências, levando a um desempenho ruim.
A avaliação do desempenho do modelo ocorre durante os estágios de avaliação e monitoramento do modelo de um pipeline de aprendizado de máquina. Depois que os profissionais de inteligência artificial (IA) trabalham nas fases iniciais dos projetos de ML, eles avaliam o desempenho de um modelo em vários conjuntos de dados, tarefas e métricas para avaliar sua eficácia. Depois que o modelo é implementado, as equipes de operações de aprendizado de máquina (MLOps) monitoram o desempenho do modelo para melhoria contínua.
O desempenho de um modelo de IA geralmente é medido usando um conjunto de testes, comparando as saídas do modelo com as previsões no conjunto de testes de base. Os insights obtidos com a avaliação do desempenho ajudam a determinar se um modelo está pronto para a implementação no mundo real ou se precisa de ajustes ou treinamento adicional.
Aqui estão alguns fatores que podem afetar o desempenho de um modelo de aprendizado de máquina:
Um modelo é tão bom quanto os dados usados para treiná-lo. O desempenho do modelo é insuficiente quando seus dados de treinamento têm falhas, contendo imprecisões ou inconsistências, como duplicatas, missing values e rótulos ou anotações de dados errados. Uma falta de equilíbrio (como ter muitos valores para um cenário em detrimento de outro ou um conjunto de dados de treinamento que não é suficiente ou diversificado o bastante para capturar correlações corretamente) também pode levar a resultados distorcidos.
O vazamento de dados no aprendizado de máquina ocorre quando um modelo usa informações durante o treinamento que não estariam disponíveis no momento da previsão. Isso pode ser causado por erros de pré-processamento de dados ou contaminação devido à divisão inadequada de dados em conjuntos de treinamento, validação e teste. O vazamento de dados faz com que um modelo preditivo tenha dificuldades ao generalizar dados não vistos, produza resultados imprecisos ou não confiáveis ou aumente ou diminua as métricas de desempenho.
A seleção de funcionalidades envolve escolher as funcionalidades mais relevantes de um conjunto de dados para usar no treinamento do modelo. As funcionalidades dos dados influenciam como os algoritmos de aprendizado de máquina configuram seus pesos durante o treinamento, o que, por sua vez, impulsiona o desempenho. Além disso, a redução do espaço de funcionalidades a um subconjunto selecionado pode ajudar a melhorar o desempenho, reduzindo as demandas computacionais. Entretanto, a escolha de funcionalidades irrelevantes ou insignificantes pode enfraquecer o desempenho do modelo.
O overfitting acontece quando um modelo de ML é muito complexo e se ajusta muito próximo ou até mesmo exatamente aos dados de treinamento; portanto, ele não generaliza bem em novos dados. Por outro lado, o underfitting ocorre quando um modelo é tão simples que não consegue capturar os padrões subjacentes nos dados de treinamento e testes.
O desvio do modelo refere-se à degradação do desempenho de um modelo devido a mudanças nos dados ou nas relações entre variáveis de entrada e saída. Essa deterioração pode impactar negativamente o desempenho do modelo, levando a tomada de decisão falha e previsões ruins.
O viés na IA pode ser introduzido em qualquer fase de um fluxo de trabalho de aprendizado de máquina, mas é particularmente predominante nos estágios de processamento de dados e desenvolvimento de modelos. O viés de dados ocorre quando a natureza não representativa dos conjuntos de dados de treinamento e ajuste fino afeta adversamente o comportamento e o desempenho do modelo. Enquanto isso, o viés algorítmico não é causado pelo algoritmo em si, mas pela forma como as equipes de ciência de dados coletam e codificam os dados de treinamento e como os programadores de IA projetam e desenvolvem algoritmos de aprendizado de máquina. O viés da IA pode levar a saídas imprecisas e resultados potencialmente prejudiciais.
Boletim informativo do setor
Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.
Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.
É importante alinhar as métricas com as metas de negócios que um modelo deve atender. Embora cada tipo de modelo de aprendizado de máquina tenha seu próprio conjunto de métricas de avaliação, muitos modelos compartilham algumas medidas em comum:
A exatidão é calculada como o número de previsões corretas dividido pelo número total de previsões. Esse percentual é uma métrica muito comum.
A exatidão do modelo e o desempenho do modelo são frequentemente comparados, mas a exatidão do modelo é apenas uma parte do desempenho do modelo. E, embora estejam interligados, previsões precisas por si só não podem fornecer uma visão holística do desempenho de um modelo.
O recall quantifica o número de verdadeiros positivos, ou seja, as previsões corretas reais. Também é conhecido como taxa de sensibilidade ou taxa de verdadeiros positivos (TPR).
Essa métrica é crítica na área da saúde, por exemplo, ao diagnosticar doenças ou detectar câncer. Um modelo de ML com alto recall pode identificar corretamente casos positivos e, ao mesmo tempo, minimizar falsos negativos (casos positivos reais previstos incorretamente como casos negativos)
Precisão é a proporção de previsões positivas que são positivos reais. Um modelo de aprendizado de máquina com alta precisão pode minimizar falsos positivos (casos negativos reais previstos incorretamente como casos positivos).
Essa métrica é crucial em finanças, por exemplo, ao detectar fraudes. As transações sinalizadas devem de fato ser fraudulentas (verdadeiros positivos), pois sinalizar transações legítimas como fraudulentas (falsos positivos) pode ter consequências negativas.
A pontuação F1 é a média harmônica de recall e precisão, combinando ambas as métricas em uma única. Ela considera que as duas medidas têm o mesmo peso para equilibrar falsos positivos ou falsos negativos. É especialmente útil para conjuntos de dados desequilibrados, como a detecção de doenças raras, uma vez que os casos negativos superam significativamente os positivos.
Muitos frameworks de IA, como o PyTorch baseado no Python, o scikit-learn e o TensorFlow, oferecem funções integradas para calcular a exatidão, o recall, a precisão e a pontuação F1. Eles também fornecem visualizações de previsões de modelo como uma matriz de confusão — uma tabela que representa valores previstos e reais, com caixas que descrevem o número de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.
Os modelos de classificação classificam os pontos de dados em grupos predefinidos chamados classes. Veja aqui algumas métricas específicas dos modelos de classificação:
Os modelos de regressão são empregados para previsões que envolvem valores contínuos, como estimativas de vendas no varejo e previsões de preços de ações. Como esses algoritmos lidam com conceitos quantificáveis, suas métricas medem erros em previsões:
O erro absoluto médio (MAE) é calculado como a soma do valor absoluto de todos os erros dividida pelo tamanho da amostra. Ele mede a diferença absoluta média entre o valor previsto e o valor real.
O erro quadrático médio (MSE) é calculado como a média das diferenças quadradas entre o valor previsto e o valor real em todas as amostras de treinamento. Calcular a raiz quadrada do erro pune grandes erros e incentiva o modelo a reduzi-los.
A raiz do erro quadrático médio (RMSE) é a raiz quadrada do MSE. Calcular a raiz quadrada do erro antes de fazer a média pune erros maiores ainda mais severamente, incentivando novamente os modelos a minimizá-los.
Essas métricas avaliam o desempenho dos modelos de processamento de linguagem natural (NLP). Elas também são usadas como benchmarks para grandes modelos de linguagem (LLMs).
Aqui estão algumas medidas quantitativas de modelos de NLP:
A perplexidade mede a qualidade de um modelo na previsão. Quanto menor a pontuação de perplexidade de um LLM, melhor compreende uma tarefa.
O BLEU (Bilingual evaluation understudy) avalia a tradução automática calculando os n-gramas correspondentes (uma sequência de n símbolos de texto adjacentes) entre a tradução prevista de um LLM e uma tradução produzida por humanos.
O ROUGE (recall-oriented understudy for gisting evaluation) avalia o resumo de textos e tem vários tipos. O ROUGE-N, por exemplo, faz cálculos semelhantes ao BLEU para resumos, enquanto o ROUGE-L calcula a subsequência comum mais longa entre o resumo previsto e o resumo produzido por seres humanos.
As métricas qualitativas abrangem medidas como coerência, relevância e significado semântico e geralmente envolvem avaliadores humanos que examinam e pontuam os modelos. Um equilíbrio de métricas quantitativas e qualitativas pode proporcionar uma avaliação mais sutil .
Os modelos de computer vision, particularmente aqueles para segmentação de instâncias e detecção de objetos, são avaliados usando estas duas medidas comuns de desempenho:
A intersecção sobre a união (IoU) calcula a razão da área de interseção sobre a área de união. A interseção abrange as seções sobrepostas entre uma caixa delimitadora que demarca um objeto detectado, conforme previsto por um modelo, e o objeto real. A união denota a área total da caixa delimitadora e do objeto real. Os modelos de computer vision usam a IoU para avaliar a precisão da localização de objetos detectados.
A precisão média (mAP) calcula a média de todas as pontuações médias de precisão entre as classes de objetos. Os modelos de computer vision usam a IoU para avaliar a precisão da previsão e da detecção.
A maioria das técnicas para otimizar o desempenho do aprendizado de máquina é implementada durante o desenvolvimento, o treinamento e a avaliação do modelo. No entanto, uma vez que um modelo é implementado no mundo real, seu desempenho deve ser constantemente rastreado. O monitoramento do modelo informa as decisões sobre como melhorar o desempenho ao longo do tempo.
O refinamento do desempenho do modelo de ML envolve uma ou mais destas técnicas:
Muitos frameworks de IA têm funcionalidades criadas previamente compatíveis com a maioria dessas técnicas.
Estabelecer e manter procedimentos rigorosos de pré-processamento ou preparação de dados pode ajudar a evitar problemas de qualidade de dados. Embora a limpeza de dados, a redução de ruído e a normalização de dados sejam os pilares do pré-processamento de dados, os cientistas de dados também podem usar ferramentas de automação de dados e até mesmo ferramentas impulsionadas por IA para economizar tempo e esforço e evitar erros humanos. Para conjuntos de dados insuficientes ou desequilibrados, dados sintéticos podem preencher as lacunas.
O tratamento cuidadoso dos dados é fundamental para evitar vazamentos. Os dados devem ser divididos corretamente em conjuntos de treinamento, validação e teste, com o pré-processamento feito separadamente para cada conjunto.
A validação cruzada também pode ajudar. A validação cruzada divide os dados em vários subconjuntos e usa outros diferentes para treinamento e validação em um número definido de iterações.
A seleção de funcionalidades pode ser desafiadora e requer experiência no domínio para identificar as funcionalidades mais essenciais e influentes. É importante entender o significado de cada funcionalidade e examinar a correlação entre as funcionalidades e a variável-alvo (a variável dependente que um modelo é encarregado de prever).
Os métodos de seleção de funcionalidades para aprendizado supervisionado incluem métodos wrapper e métodos incorporados. Os métodos wrapper treinam um algoritmo de aprendizado de máquina com diferentes subconjuntos de funcionalidades, adicionando ou removendo-os e testando os resultados a cada iteração para determinar o conjunto de recursos que leva ao desempenho ideal do modelo. Os métodos incorporados integram a seleção de funcionalidades ao treinamento do modelo, identificando funcionalidades de baixo desempenho e eliminando-as de iterações futuras.
Com o aprendizado não supervisionado, os modelos descobrem as funcionalidades, padrões e relacionamentos dos dados por conta própria. Os métodos de seleção de funcionalidades para aprendizado não supervisionado incluem análise de componentes principais (PCA), análise de componentes independentes (ICA) e autocodificadores.
O ajuste de hiperparâmetros, também conhecido como otimização de hiperparâmetros ou ajuste do modelo, identifica, seleciona e otimiza os hiperparâmetros de um modelo de deep learning para conseguir o melhor desempenho no treinamento. Os hiperparâmetros regem o processo de aprendizado de um modelo, e encontrar a combinação e a configuração certas de hiperparâmetros pode fortalecer o desempenho do modelo no mundo real.
Os métodos comuns de ajuste de hiperparâmetros incluem pesquisa em grade, pesquisa aleatória, otimização bayesiana e hiperbanda. Os cientistas de dados também podem implementar métodos automatizados para descobrir algoritmicamente os hiperparâmetros ideais que se ajustam a seu caso de uso.
O aprendizado de conjunto combina vários modelos para aprimorar o desempenho preditivo, com a suposição de que um coletivo ou conjunto de modelos pode produzir previsões melhores do que um único modelo sozinho.
Veja a seguir algumas técnicas de aprendizado de conjunto populares:
Bagging, também chamado de agregação bootstrapping, treina modelos em paralelo e independentes uns dos outros. Em seguida, utiliza a média (para tarefas de regressão) ou a maioria (para problemas de classificação) das previsões para calcular uma estimativa mais precisa.
O boosting treina modelos sequencialmente, corrigindo erros passados em cada iteração. Ele dá mais peso a instâncias errôneas ou mal classificadas nos modelos seguintes, concentrando-se, assim, em pontos de dados desafiadores e melhorando o desempenho ao longo do caminho.
O empilhamento treina modelos do mesmo conjunto de dados, mas aplica um algoritmo de treinamento diferente para cada um. Em seguida, usa as previsões compiladas ou empilhadas para treinar um modelo final.
O aprendizado por transferência pega o conhecimento adquirido por um modelo pré-treinado em uma tarefa ou conjunto de dados inicial e o aplica a uma tarefa ou conjunto de dados de destino novo, mas relacionado. O reaproveitamento de um modelo pré-treinado para uma tarefa diferente aumenta os recursos de generalização desse modelo, ajudando a otimizar o desempenho.
Gerenciar overfitting e underfitting é um desafio central no aprendizado de máquina. Um modelo de ajuste otimizado reconhece com precisão padrões nos dados sem ser muito sensível a flutuações ou ruídos aleatórios.
As técnicas para evitar o overfitting e underfitting incluem encontrar a duração de treinamento correta para dar aos modelos tempo suficiente para aprender, aumento de dados para expandir o conjunto de treinamento e regularização para reduzir a variância em um modelo aplicando uma penalidade aos parâmetros de entrada com coeficientes maiores.
A detecção de desvio, um aspecto essencial do monitoramento e da observabilidade do modelo, pode ajudar a proteger contra o desvio do modelo. Por exemplo, os detectores de desvio de IA reconhecem automaticamente quando a exatidão de um modelo diminui ou fica abaixo de um limite predefinido, enquanto as ferramentas de monitoramento observam continuamente os cenários de desvio.
Quando o desvio é detectado, os modelos de ML podem ser atualizados em tempo real ou retreinados usando um novo conjunto de dados contendo amostras mais recentes e relevantes.
A mitigação do viés da IA começa com a governança de IA, que engloba proteções, processos e normas que ajudam a garantir que os sistemas e as ferramentas de IA sejam éticos e seguros. Aqui estão algumas práticas de IA responsável que podem proteger contra o viés:
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.