Um modelo de IA é um programa que foi treinado em um conjunto de dados para reconhecer certos padrões ou tomar certas decisões sem intervenção humana adicional. Os modelos de inteligência artificial aplicam algoritmos diferentes a entradas de dados relevantes para realizar as tarefas, ou saídas, para as quais foram programados.
Simplificando, um modelo de IA é definido por sua capacidade de tomar decisões ou previsões de forma autônoma, em vez de simular a inteligência humana. Entre os primeiros modelos de IA bem-sucedidos estavam programas de jogo de damas e xadrez no início da década de 1950: os modelos permitiam que os programas fizessem movimentos em resposta direta ao oponente humano, em vez de seguir uma série de movimentos pré-definidos.
Diferentes tipos de modelos de IA são mais adequados para tarefas específicas, ou domínios, para os quais sua lógica de tomada de decisões específica é mais útil ou relevante. Sistemas complexos muitas vezes empregam múltiplos modelos simultaneamente, usando técnicas de aprendizado de conjunto, como bagging, boosting ou stacking.
À medida que as ferramentas de IA se tornam cada vez mais complexas e versáteis, elas exigem quantidades cada vez mais desafiadoras de dados e poder de computação para serem treinadas e executadas. Em resposta, sistemas projetados para executar tarefas específicas em um único domínio estão dando lugar a modelos de base, pré-treinados em grandes conjuntos de dados não rotulados e capazes de uma ampla gama de aplicações. Esses modelos de base versáteis podem, então, ser ajustados para tarefas específicas.
Embora os dois termos sejam frequentemente usados de forma intercambiável nesse contexto, eles não significam exatamente a mesma coisa.
Em termos simples, um modelo de IA é usado para fazer previsões ou decisões e um algoritmo é a lógica pela qual esse modelo de IA opera.
Os modelos de IA podem automatizar a tomada de decisões, mas apenas os modelos com aprendizado de máquina (ML) conseguem otimizar de forma autônoma seu desempenho ao longo do tempo.
Embora todos os modelos de ML sejam IA, nem toda IA envolve ML. Os modelos de IA mais elementares são uma série de instruções if-then-else, com regras programadas explicitamente por um cientista de dados. Esses modelos são alternativamente chamados de mecanismos de regras, sistemas especializados, gráficos de conhecimento ou IA simbólica.
Os modelos de aprendizado de máquina usam IA estatística em vez de IA simbólica. Enquanto os modelos de IA baseados em regras devem ser explicitamente programados, os modelos de ML são “treinados” aplicando as suas frameworks matemáticas a um conjunto de dados de amostra cujos pontos de dados servem de base para as futuras previsões do modelo no mundo real.
As técnicas de modelo de ML geralmente podem ser separadas em três grandes categorias: aprendizagem supervisionada, aprendizagem não supervisionada e aprendizagem por reforço.
O deep learning é um subconjunto mais evoluído do aprendizado não supervisionado, cuja estrutura de redes neurais tenta imitar a do cérebro humano. Várias camadas de nós interconectados ingerem dados progressivamente, extraem características principais, identificam relacionamentos e refinam decisões em um processo chamado propagação direta. Outro processo chamado de retropropagação aplica modelos que calculam erros e ajustam devidamente os pesos e vieses do sistema. As aplicações de IA mais avançadas, como os grandes modelos de linguagem (LLMs) que alimentam os chatbots modernos, utilizam deep learning. Exige recursos computacionais enormes.
Uma maneira de diferenciar os modelos de aprendizado de máquina é por sua metodologia fundamental: a maioria pode ser categorizada como generativa ou discriminativa. A distinção está na forma como modelam os dados em um determinado espaço.
Algoritmos generativos , que geralmente envolvem aprendizado não supervisionado, modelam a distribuição de pontos de dados, com o objetivo de prever a probabilidade conjunta P (x, y) de um determinado ponto de dados aparecendo em um determinado espaço. Um modelo de visão computacional generativa pode, assim, identificar correlações como "coisas que parecem carros geralmente têm quatro rodas" ou "é improvável que os olhos apareçam acima das sobrancelhas".
Essas previsões podem informar a geração de resultados que o modelo considera altamente provável. Por exemplo, um modelo generativo treinado com dados de texto pode possibilitar sugestões de ortografia e preenchimento automático; no nível mais complexo, pode gerar textos totalmente novos. Essencialmente, quando um LLM produz texto, ele calculou uma alta probabilidade de que essa sequência de palavras seja montada em resposta ao prompt que recebeu.
Outros casos de uso comuns de modelos generativos incluem síntese de imagens, composição musical, transferência de estilo e tradução de idiomas.
São exemplos de modelos generativos:
Algoritmos discriminativos, que geralmente envolvem aprendizado supervisionado, modelam os limites entre classes de dados (ou "limites de decisão"), visando prever a probabilidade condicional P(y|x) de um determinado ponto de dados (x) que se enquadra em uma determinada classe (y). Um modelo de visão computacional pode aprender a diferença entre "carro" e "não carro" ao discernir algumas diferenças importantes (como "se não tem rodas, não é um carro"), permitindo que ele ignore muitas correlações que um modelo generativo deve levar em conta. Modelos discriminativos, portanto, tendem a exigir menos poder de computação.
Os modelos discriminativos são, naturalmente, bem adequados para tarefas de classificação, como análise de sentimentos, mas têm muitos usos. Por exemplo, os modelos de decision tree e random forest dividem processos complexos de tomada de decisões em uma série de nós, nos quais cada "folha" representa uma possível decisão de classificação.
Embora os modelos discriminativos ou generativos possam , em geral, superar o desempenho um do outro em determinados casos de uso no mundo real, muitas tarefas podem ser realizadas com qualquer tipo de modelo. Por exemplo, os modelos discriminativos têm muitos usos no processamento de linguagem natural (NLP) e, geralmente, superam o desempenho da IA generativa em tarefas como tradução automática (que envolve a geração de texto traduzido).
Da mesma forma, modelos generativos podem ser usados para classificação usando o teorema de Bayes. Em vez de determinar de que lado de um limite de decisão uma instância está (como um modelo discriminativo faria), um modelo generativo poderia determinar a probabilidade de cada classe gerar a instância e escolher aquela com maior probabilidade.
Muitos sistemas de IA empregam ambos em conjunto. Em uma rede adversária generativa, por exemplo, um modelo generativo gera dados de amostra e um modelo discriminativo determina se esses dados são “reais” ou “falsos”. A saída do modelo discriminativo é usada para treinar o modelo generativo até que o discriminador não consiga mais discernir dados gerados “falsos”.
Outra maneira de categorizar os modelos é pela natureza das tarefas para as quais eles são usados. A maioria dos algoritmos clássicos de modelos de IA realiza classificação ou regression. Alguns são adequados para ambos, e a maioria dos modelos de base aproveita os dois tipos de funções.
Essa terminologia pode, às vezes, ser confusa. Por exemplo, regressão logística é um modelo discriminativo usado para classificação.
Os modelos de regressão preveem valores contínuos (como preço, idade, tamanho ou tempo). Eles são usados principalmente para determinar a relação entre uma ou mais variáveis independentes (x) e uma variável dependente (y): dado x, preveja o valor de y.
Os modelos de classificação preveem valores discretos . Dessa forma, eles são usados principalmente para determinar um rótulo apropriado ou para categorizar (ou seja, classificar). Essa pode ser uma classificação binária (como "sim ou não", "aceitar ou rejeitar") ou uma classificação multiclasse (como um mecanismo de recomendação que sugere o Produto A, B, C ou D).
Os algoritmos de classificação encontram uma grande variedade de usos, desde a categorização simples até a automatização de extrações de recursos em redes de deep learning e avanços na área da saúde, como a classificação de imagens de diagnóstico em radiologia.
Exemplos comuns:
O “aprendizado” em aprendizado de máquina é obtido por meio do treinamento de modelos em conjuntos de dados de amostra. Tendências probabilísticas e correlações discernidas nesses conjuntos de dados de amostra são então aplicadas ao desempenho da função do sistema.
No aprendizado supervisionado e semissupervisionado, esses dados de treinamento devem ser cuidadosamente rotulados por cientistas de dados para otimizar os resultados. Dada a extração adequada de recursos, o aprendizado supervisionado requer uma quantidade menor de dados de treinamento em geral do que o aprendizado não supervisionado.
O ideal é que os modelos de ML sejam treinados com dados do mundo real. Isso, intuitivamente, garante que o modelo reflita as circunstâncias do mundo real que foi projetado para analisar ou replicar. Mas confiar apenas em dados do mundo real nem sempre é possível, prático ou ideal.
Quanto mais parâmetros um modelo tiver, mais dados serão necessários para treiná-lo. À medida que aumenta o tamanho dos modelos de deep learning, adquirir esses dados se torna cada vez mais difícil. Isso é particularmente evidente em LLMs: tanto o GPT-3 da Open-AI quanto o BLOOM de código aberto têm mais de 175 bilhões de parâmetros.
Apesar de sua conveniência, o uso de dados disponíveis publicamente pode apresentar questões regulatórias, como quando os dados devem ser anonimizados, bem como questões práticas. Por exemplo, modelos de linguagem treinados em tópicos de mídia social podem "aprender" hábitos ou imprecisões não ideais para uso corporativo.
Os dados sintéticos oferecem uma solução alternativa: um conjunto menor de dados reais é usado para gerar dados de treinamento que se assemelham aos originais e evitam preocupações com privacidade.
Os modelos de ML treinados em dados do mundo real inevitavelmente absorverão os vieses sociais que serão refletidos nesses dados. Se não forem extirpados, esses vieses perpetuarão e exacerbarão a injustiça em qualquer campo que esses modelos informem, como assistência médica ou contratação. A pesquisa em ciência de dados produziu algoritmos como FairIJ e técnicas de refinamento de modelos como FairReprogram para lidar com a injustiça inerente aos dados.
O overfitting ocorre quando um modelo de ML ajusta os dados de treinamento muito de perto, fazendo com que informações irrelevantes (ou "ruído") no conjunto de dados de amostra influenciem o desempenho do modelo. O underfitting é seu oposto: treinamento inadequado ou inadequado.
Também chamados de modelos básicos ou modelos pré-treinados, os modelos de base são modelos de deep learning pré-treinados em conjuntos de dados de grande escala para aprender funcionalidades e padrões gerais. Eles servem como pontos de partida para serem ajustados ou adaptados para aplicações de IA mais específicas.
Em vez de construir modelos do zero, os desenvolvedores podem alterar camadas de Neural Networks, ajustar parâmetros ou adaptar arquiteturas para atender às necessidades específicas do domínio. Somado à amplitude e profundidade de conhecimento e experiência em um modelo grande e comprovado, isso economiza tempo e recursos significativos no treinamento de modelos. Assim, os modelos de base permitem um desenvolvimento e a implementação mais rápidos de sistemas de IA.
O ajuste fino de modelos pré-treinados para tarefas especializadas deu lugar recentemente à técnica de ajuste de prompts, que introduz dicas de front-end no modelo a fim de guiá-lo em direção ao tipo desejado de decisão ou previsão.
De acordo com David Cox, codiretor do MIT-IBM Watson AI Lab, a redistribuição de um modelo de deep learning treinado (em vez de treinar ou retreinar um novo modelo) pode reduzir o uso de computadores e energia em mais de mil vezes, gerando uma economia significativa1.
Testes sofisticados são essenciais para a otimização, pois medem se um modelo está bem treinado para realizar a tarefa pretendida. Diferentes modelos e tarefas se prestam a diferentes métricas e metodologias.
Para testar o desempenho de um modelo, é necessário um grupo de controle para julgá-lo, pois testar um modelo em relação aos próprios dados em que foi treinado pode levar a um overfitting. Na validação cruzada, partes dos dados de treinamento são mantidas de lado ou reamostradas para criar esse grupo de controle. As variantes incluem métodos não exaustivos, como k-fold, holdout e validação cruzada monte carlo, ou métodos exaustivos, como a validação cruzada leave-p-out.
Essas métricas comuns incorporam valores de resultados discretos, como verdadeiros positivos (TP), verdadeiros negativos (TN), falsos positivos (FP) e falsos negativos (FN).
Como os algoritmos de regressão preveem valores contínuos em vez de valores discretos, eles são medidos por diferentes métricas, em que "N" representa o número de observações. Veja a seguir as métricas comuns usadas para avaliar modelos de regressão.
Implementar e executar um modelo de IA requer um dispositivo de computação ou servidor com capacidade de processamento e capacidade de armazenamento suficientes. A falha em planejar adequadamente os pipelines de IA e os recursos de computação pode resultar em protótipos bem-sucedidos que não conseguem avançar além da fase de prova de conceito.
Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa em sua empresa com confiança.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
1 "What is prompt tuning?", IBM Research, 15 de fevereiro de 2023.
2 "Machine learning model evaluation", Geeksforgeeks.org, 2022.