O que é um modelo de IA?

Empresária e empresário sorridentes trabalhando no escritório moderno

O que é um modelo de IA?

Um modelo de IA é um programa que foi treinado em um conjunto de dados para reconhecer certos padrões ou tomar certas decisões sem intervenção humana adicional. Os modelos de inteligência artificial aplicam algoritmos diferentes a entradas de dados relevantes para realizar as tarefas, ou saídas, para as quais foram programados.

Simplificando, um modelo de IA é definido por sua capacidade de tomar decisões ou previsões de forma autônoma, em vez de simular a inteligência humana. Entre os primeiros modelos de IA bem-sucedidos estavam programas de jogo de damas e xadrez no início da década de 1950: os modelos permitiam que os programas fizessem movimentos em resposta direta ao oponente humano, em vez de seguir uma série de movimentos pré-definidos.

Diferentes tipos de modelos de IA são mais adequados para tarefas específicas, ou domínios, para os quais sua lógica de tomada de decisões específica é mais útil ou relevante. Sistemas complexos muitas vezes empregam múltiplos modelos simultaneamente, usando técnicas de aprendizado de conjunto, como bagging, boosting ou stacking.

À medida que as ferramentas de IA se tornam cada vez mais complexas e versáteis, elas exigem quantidades cada vez mais desafiadoras de dados e poder de computação para serem treinadas e executadas. Em resposta, sistemas projetados para executar tarefas específicas em um único domínio estão dando lugar a modelos de base, pré-treinados em grandes conjuntos de dados não rotulados e capazes de uma ampla gama de aplicações. Esses modelos de base versáteis podem, então, ser ajustados para tarefas específicas.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Algoritmos versus modelos

Embora os dois termos sejam frequentemente usados de forma intercambiável nesse contexto, eles não significam exatamente a mesma coisa.

  • Algoritmos são procedimentos, geralmente descritos em linguagem matemática ou pseudocódigo, que são aplicados a um conjunto de dados para realizar uma determinada função ou propósito.
  • Os modelos são a produção de um algoritmo que foi aplicado a um conjunto de dados.

Em termos simples, um modelo de IA é usado para fazer previsões ou decisões e um algoritmo é a lógica pela qual esse modelo de IA opera.

AI Academy

Escolha o modelo de IA certo para seu caso de uso

Tamanho nem sempre é documento quando falamos de modelos de IA. Aprenda a encontrar a solução correta para suas necessidades de negócios. E, em seguida, use o guia como um auxílio para entrar em ação.

Modelos de IA e aprendizado de máquina

Os modelos de IA podem automatizar a tomada de decisões, mas apenas os modelos com aprendizado de máquina (ML) conseguem otimizar de forma autônoma seu desempenho ao longo do tempo.

Embora todos os modelos de ML sejam IA, nem toda IA envolve ML. Os modelos de IA mais elementares são uma série de instruções if-then-else, com regras programadas explicitamente por um cientista de dados. Esses modelos são alternativamente chamados de mecanismos de regras, sistemas especializados, gráficos de conhecimento ou IA simbólica.

Os modelos de aprendizado de máquina usam IA estatística em vez de IA simbólica. Enquanto os modelos de IA baseados em regras devem ser explicitamente programados, os modelos de ML são “treinados” aplicando as suas frameworks matemáticas a um conjunto de dados de amostra cujos pontos de dados servem de base para as futuras previsões do modelo no mundo real.

As técnicas de modelo de ML geralmente podem ser separadas em três grandes categorias: aprendizagem supervisionada, aprendizagem não supervisionada e aprendizagem por reforço.

  • Aprendizado supervisionado: também conhecido como aprendizado de máquina "clássico", o aprendizado supervisionado requer um especialista humano para rotular os dados de treinamento. Um cientista de dados que treina um modelo de reconhecimento de imagens para reconhecer cães e gatos deve rotular imagens de amostra como “cão” ou “gato”, bem como características principais, como tamanho, forma ou pelo, que informam esses rótulos primários. O modelo pode, então, durante o treinamento, usar esses rótulos para inferir as características visuais típicas de “cão” e “gato”.
  • Aprendizado não supervisionado: ao contrário das técnicas de aprendizado supervisionado, o aprendizado não supervisionado não pressupõe a existência externa de respostas "certas" ou "erradas" e, portanto, não requer rotulagem. Esses algoritmos detectam padrões inerentes em conjuntos de dados para agrupar pontos de dados em grupos e informar previsões. Por exemplo, empresas de comércio eletrônico como a Amazon usam modelos de associação não supervisionados para alimentar mecanismos de recomendação.
  • Aprendizado por reforço: no aprendizado por reforço, um modelo aprende holisticamente por tentativa e erro por meio da recompensa sistemática da saída correta (ou penalização da saída incorreta). Os modelos por reforço são usados para informar sugestões de redes sociais, negociação algorítmica de ações e até carros autônomos.

O deep learning é um subconjunto mais evoluído do aprendizado não supervisionado, cuja estrutura de redes neurais tenta imitar a do cérebro humano. Várias camadas de nós interconectados ingerem dados progressivamente, extraem características principais, identificam relacionamentos e refinam decisões em um processo chamado propagação direta. Outro processo chamado de retropropagação aplica modelos que calculam erros e ajustam devidamente os pesos e vieses do sistema. As aplicações de IA mais avançadas, como os grandes modelos de linguagem (LLMs) que alimentam os chatbots modernos, utilizam deep learning. Exige recursos computacionais enormes.

Modelos generativos versus modelos discriminativos

Uma maneira de diferenciar os modelos de aprendizado de máquina é por sua metodologia fundamental: a maioria pode ser categorizada como generativa ou discriminativa. A distinção está na forma como modelam os dados em um determinado espaço.

Modelos generativos

Algoritmos generativos , que geralmente envolvem aprendizado não supervisionado, modelam a distribuição de pontos de dados, com o objetivo de prever a probabilidade conjunta P (x, y) de um determinado ponto de dados aparecendo em um determinado espaço. Um modelo de visão computacional generativa pode, assim, identificar correlações como "coisas que parecem carros geralmente têm quatro rodas" ou "é improvável que os olhos apareçam acima das sobrancelhas".

Essas previsões podem informar a geração de resultados que o modelo considera altamente provável. Por exemplo, um modelo generativo treinado com dados de texto pode possibilitar sugestões de ortografia e preenchimento automático; no nível mais complexo, pode gerar textos totalmente novos. Essencialmente, quando um LLM produz texto, ele calculou uma alta probabilidade de que essa sequência de palavras seja montada em resposta ao prompt que recebeu.

Outros casos de uso comuns de modelos generativos incluem síntese de imagens, composição musical, transferência de estilo e tradução de idiomas.

São exemplos de modelos generativos:

  • Modelos de difusão: os modelos de difusão adicionam gradualmente ruído gaussiano aos dados de treinamento até que se tornem irreconhecíveis, depois aprendem um processo de “redução de ruído” invertido que pode sintetizar a saída (geralmente imagens) a partir de um ruído inicial aleatório.
  • Autocodificadores variacionais (VAEs): os VAEs consistem em um codificador que compacta os dados de entrada e um decodificador que aprende a reverter o processo e mapear a provável distribuição de dados.
  • Modelos de transformadores: os modelos de transformadores usam técnicas matemáticas chamadas “atenção” ou “autoatenção” para identificar como elementos diferentes em uma série de dados influenciam uns aos outros. O “GPT” no Chat-GPT da OpenAI significa “Generative Pretrained Transformer (Transformador Pré-treinado Generativo)”.

Modelos discriminativos

Algoritmos discriminativos, que geralmente envolvem aprendizado supervisionado, modelam os limites entre classes de dados (ou "limites de decisão"), visando prever a probabilidade condicional P(y|x) de um determinado ponto de dados (x) que se enquadra em uma determinada classe (y). Um modelo de visão computacional pode aprender a diferença entre "carro" e "não carro" ao discernir algumas diferenças importantes (como "se não tem rodas, não é um carro"), permitindo que ele ignore muitas correlações que um modelo generativo deve levar em conta. Modelos discriminativos, portanto, tendem a exigir menos poder de computação.

Os modelos discriminativos são, naturalmente, bem adequados para tarefas de classificação, como análise de sentimentos, mas têm muitos usos. Por exemplo, os modelos de decision tree e random forest dividem processos complexos de tomada de decisões em uma série de nós, nos quais cada "folha" representa uma possível decisão de classificação.

Casos de uso

Embora os modelos discriminativos ou generativos possam , em geral, superar o desempenho um do outro em determinados casos de uso no mundo real, muitas tarefas podem ser realizadas com qualquer tipo de modelo. Por exemplo, os modelos discriminativos têm muitos usos no processamento de linguagem natural (NLP) e, geralmente, superam o desempenho da IA generativa em tarefas como tradução automática (que envolve a geração de texto traduzido).

Da mesma forma, modelos generativos podem ser usados para classificação usando o teorema de Bayes. Em vez de determinar de que lado de um limite de decisão uma instância está (como um modelo discriminativo faria), um modelo generativo poderia determinar a probabilidade de cada classe gerar a instância e escolher aquela com maior probabilidade.

Muitos sistemas de IA empregam ambos em conjunto. Em uma rede adversária generativa, por exemplo, um modelo generativo gera dados de amostra e um modelo discriminativo determina se esses dados são “reais” ou “falsos”. A saída do modelo discriminativo é usada para treinar o modelo generativo até que o discriminador não consiga mais discernir dados gerados “falsos”.

Modelos de classificação versus modelos de regression

Outra maneira de categorizar os modelos é pela natureza das tarefas para as quais eles são usados. A maioria dos algoritmos clássicos de modelos de IA realiza classificação ou regression. Alguns são adequados para ambos, e a maioria dos modelos de base aproveita os dois tipos de funções.

Essa terminologia pode, às vezes, ser confusa. Por exemplo, regressão logística é um modelo discriminativo usado para classificação.

Modelos de regressão

Os modelos de regressão preveem valores contínuos (como preço, idade, tamanho ou tempo). Eles são usados principalmente para determinar a relação entre uma ou mais variáveis independentes (x) e uma variável dependente (y): dado x, preveja o valor de y.

  • Algoritmos como regressão linear e variantes relacionadas, como regressão quantílica, são úteis para tarefas como forecasting, análise de elasticidade de preços e avaliação de riscos.
  • Algoritmos como regression polinomial e regression vetorial de suporte (SVR) modelam relacionamentos não lineares complexos entre variáveis.
  • Alguns modelos generativos, como a autorregressão e os autocodificadores variacionais, levam em conta não apenas as relações correlativas entre valores passados e futuros, mas também as relações causais . Isso os torna particularmente úteis para forecasting de cenários meteorológicos e previsão de eventos climáticos extremos.

Modelos de classificação

Os modelos de classificação preveem valores discretos . Dessa forma, eles são usados principalmente para determinar um rótulo apropriado ou para categorizar (ou seja, classificar). Essa pode ser uma classificação binária (como "sim ou não", "aceitar ou rejeitar") ou uma classificação multiclasse (como um mecanismo de recomendação que sugere o Produto A, B, C ou D).

Os algoritmos de classificação encontram uma grande variedade de usos, desde a categorização simples até a automatização de extrações de recursos em redes de deep learning e avanços na área da saúde, como a classificação de imagens de diagnóstico em radiologia.

Exemplos comuns:

  • Naïve Bayes: um algoritmo de aprendizado supervisionado generativo comumente usado na filtragem de spam e classificação de documentos.
  • Análise discriminante linear: usada para resolver sobreposições contraditórias entre várias funcionalidades que impactam a classificação.
  • Regressão logística: prevê probabilidades contínuas que são, então, usadas como proxy para intervalos de classificação.

Modelos de IA de treinamento

O “aprendizado” em aprendizado de máquina é obtido por meio do treinamento de modelos em conjuntos de dados de amostra. Tendências probabilísticas e correlações discernidas nesses conjuntos de dados de amostra são então aplicadas ao desempenho da função do sistema.

No aprendizado supervisionado e semissupervisionado, esses dados de treinamento devem ser cuidadosamente rotulados por cientistas de dados para otimizar os resultados. Dada a extração adequada de recursos, o aprendizado supervisionado requer uma quantidade menor de dados de treinamento em geral do que o aprendizado não supervisionado.

O ideal é que os modelos de ML sejam treinados com dados do mundo real. Isso, intuitivamente, garante que o modelo reflita as circunstâncias do mundo real que foi projetado para analisar ou replicar. Mas confiar apenas em dados do mundo real nem sempre é possível, prático ou ideal.

Aumento do tamanho e da complexidade dos modelos

Quanto mais parâmetros um modelo tiver, mais dados serão necessários para treiná-lo. À medida que aumenta o tamanho dos modelos de deep learning, adquirir esses dados se torna cada vez mais difícil. Isso é particularmente evidente em LLMs: tanto o GPT-3 da Open-AI quanto o BLOOM de código aberto têm mais de 175 bilhões de parâmetros.

Apesar de sua conveniência, o uso de dados disponíveis publicamente pode apresentar questões regulatórias, como quando os dados devem ser anonimizados, bem como questões práticas. Por exemplo, modelos de linguagem treinados em tópicos de mídia social podem "aprender" hábitos ou imprecisões não ideais para uso corporativo.

Os dados sintéticos oferecem uma solução alternativa: um conjunto menor de dados reais é usado para gerar dados de treinamento que se assemelham aos originais e evitam preocupações com privacidade.

Eliminação do viés

Os modelos de ML treinados em dados do mundo real inevitavelmente absorverão os vieses sociais que serão refletidos nesses dados. Se não forem extirpados, esses vieses perpetuarão e exacerbarão a injustiça em qualquer campo que esses modelos informem, como assistência médica ou contratação. A pesquisa em ciência de dados produziu algoritmos como FairIJ e técnicas de refinamento de modelos como FairReprogram para lidar com a injustiça inerente aos dados.

Overfitting e underfitting

O overfitting ocorre quando um modelo de ML ajusta os dados de treinamento muito de perto, fazendo com que informações irrelevantes (ou "ruído") no conjunto de dados de amostra influenciem o desempenho do modelo. O underfitting é seu oposto: treinamento inadequado ou inadequado.

Modelos de base

Também chamados de modelos básicos ou modelos pré-treinados, os modelos de base são modelos de deep learning pré-treinados em conjuntos de dados de grande escala para aprender funcionalidades e padrões gerais. Eles servem como pontos de partida para serem ajustados ou adaptados para aplicações de IA mais específicas.

Em vez de construir modelos do zero, os desenvolvedores podem alterar camadas de Neural Networks, ajustar parâmetros ou adaptar arquiteturas para atender às necessidades específicas do domínio. Somado à amplitude e profundidade de conhecimento e experiência em um modelo grande e comprovado, isso economiza tempo e recursos significativos no treinamento de modelos. Assim, os modelos de base permitem um desenvolvimento e a implementação mais rápidos de sistemas de IA.

O ajuste fino de modelos pré-treinados para tarefas especializadas deu lugar recentemente à técnica de ajuste de prompts, que introduz dicas de front-end no modelo a fim de guiá-lo em direção ao tipo desejado de decisão ou previsão.

De acordo com David Cox, codiretor do MIT-IBM Watson AI Lab, a redistribuição de um modelo de deep learning treinado (em vez de treinar ou retreinar um novo modelo) pode reduzir o uso de computadores e energia em mais de mil vezes, gerando uma economia significativa1.

Testagem de modelos de IA

Testes sofisticados são essenciais para a otimização, pois medem se um modelo está bem treinado para realizar a tarefa pretendida. Diferentes modelos e tarefas se prestam a diferentes métricas e metodologias.

Validação cruzada

Para testar o desempenho de um modelo, é necessário um grupo de controle para julgá-lo, pois testar um modelo em relação aos próprios dados em que foi treinado pode levar a um overfitting. Na validação cruzada, partes dos dados de treinamento são mantidas de lado ou reamostradas para criar esse grupo de controle. As variantes incluem métodos não exaustivos, como k-fold, holdout e validação cruzada monte carlo, ou métodos exaustivos, como a validação cruzada leave-p-out.

Métricas de modelos de classificação

Essas métricas comuns incorporam valores de resultados discretos, como verdadeiros positivos (TP), verdadeiros negativos (TN), falsos positivos (FP) e falsos negativos (FN).

  • A precisão é a proporção de previsões corretas em relação às para as previsões totais: (TP+TN)/(TP+TN+FP+FN). Não funciona bem com conjuntos de dados desequilibrados.
  • A precisão mede a frequência com que as previsões positivas são precisas: TP/(TP+FP).
  • O recall mede a frequência com que os positivos são capturados com sucesso: TP/(TP+FN).
  • A pontuação F1 é a média harmônica da precisão e recall: (2 × precisão × recall)/(precisão + recall).Ela equilibra as compensações entre precisão (que incentiva falsos negativos) e recall (que incentiva falsos positivos).
  • Uma matriz de confusão representa visualmente a confiança (ou confusão) de seu algoritmo para cada classificação potencial.

Métricas de modelos de regressão2

Como os algoritmos de regressão preveem valores contínuos em vez de valores discretos, eles são medidos por diferentes métricas, em que "N" representa o número de observações. Veja a seguir as métricas comuns usadas para avaliar modelos de regressão.

  • O erro absoluto médio (MAE) mede a diferença média entre os valores previstos (ypred) e os valores reais (yactual) em termos absolutos: ∑(ypred –yactual)/N.
  • O erro quadrático médio (MSE) calcula o quadrado do erro médio para penalizar agressivamente os valores discrepantes: ∑(ypred – yactual)2 /N.
  • A raiz do erro quadrático médio (RSME) mede os desvios padrão na mesma unidade dos resultados: √ (∑(ypred – yactual)2 /N).
  • O erro percentual absoluto médio (MAPE) expressa o erro médio como ume percentual.

Implementação de modelos de IA

Implementar e executar um modelo de IA requer um dispositivo de computação ou servidor com capacidade de processamento e capacidade de armazenamento suficientes. A falha em planejar adequadamente os pipelines de IA e os recursos de computação pode resultar em protótipos bem-sucedidos que não conseguem avançar além da fase de prova de conceito.

  • Frameworks de aprendizado de máquina de código aberto, como o PyTorch, Tensorflow e Caffe2, podem executar modelos de ML com algumas linhas de código.
  • As unidades centrais de processamento (CPUs) são uma fonte eficiente de poder computacional para aprender algoritmos que não exigem computação paralela extensa.
  • As unidades de processamento gráfico (GPUs) têm uma capacidade maior de processamento paralelo, tornando-as mais adequadas aos enormes conjuntos de dados e à complexidade matemática das redes neurais de deep learning.
Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa em sua empresa com confiança.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Conheça o watsonx.ai Conheça os modelos de IA do IBM® Granite
Notas de rodapé

1 "What is prompt tuning?", IBM Research, 15 de fevereiro de 2023.

2 "Machine learning model evaluation", Geeksforgeeks.org, 2022.