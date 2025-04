Também conhecido como transformador, um modelo de base é um algoritmo de IA treinado com vastas quantidades de dados amplos. O termo "modelo de base" foi cunhado pelo Stanford Institute for Human-Centered Artificial Intelligence em 2021.

Um modelo de base é construído em uma arquitetura de redes neurais para processar informações da mesma forma que o cérebro humano. Os modelos de base podem ser treinados para executar tarefas como classificação de dados, identificação de objetos em imagens (visão computacional) e processamento de linguagem natural (NLP) (compreensão e geração de texto) com alto grau de precisão. Eles também podem realizar aprendizado autossupervisionado para generalizar e aplicar seus conhecimentos a novas tarefas.

Em vez de gastar tempo e esforço treinando um modelo a partir do zero, os cientistas de dados podem usar modelos de base pré-treinados como pontos de partida para criar ou personalizar modelos de IA generativa para um caso de uso específico. Por exemplo, um modelo de base pode ser usado como base para um modelo de IA generativa que recebe, então, um ajuste fino com conjuntos de dados de fabricação adicionais para auxiliar na descoberta de formas mais seguras e rápidas de fabricar um tipo de produto.

Um tipo específico de modelo de base conhecido como grandes modelos de linguagem (LLM) é treinado em vastas quantidades de dados de texto para tarefas de NLP. O BERT (Bi-directional Encoder Representations from Transformers) é um dos primeiros modelos de base de LLM desenvolvido. Um modelo de código aberto, o Google criou o BERT em 2018. Ele foi pré-treinado em um grande corpus de dados em inglês com autossupervisão e pode ser usado para uma variedade de tarefas, como:

Analisar o sentimento do cliente/audiência

Responder a perguntas de atendimento ao cliente

Prever texto a partir de dados de entrada

Gerar texto com base em prompts do usuário

Resumir documentos grandes e complexos

Modelos de base versus modelos tradicionais de aprendizado de máquina

Um modelo de base usado para IA generativa difere de um modelo tradicional de aprendizado de máquina porque pode ser treinado em grandes quantidades de dados não rotulados para permitir aplicações que geram conteúdo ou executam tarefas.

Por outro lado, um modelo de aprendizado de máquina tradicional normalmente é treinado para executar uma única tarefa usando dados rotulados, como usar imagens rotuladas de carros para treinar o modelo para reconhecer carros em imagens não rotuladas.

Modelos de base focados no valor empresarial

O estúdio watsonx.ai da IBM é um pacote de modelos de base de linguagem e código, cada um com um nome de código com tema de geologia, que pode ser personalizado para uma série de tarefas empresariais. Todos os modelos do watsonx.ai são treinados no data lake curado e focado em empresas da IBM.

Disponível agora: Slate

O Slate se refere a uma família de modelos somente de codificadores que, embora não sejam generativos, são rápidos e eficazes para muitas tarefas corporativas de NLP.

Em breve: Granite

Os modelos Granite são baseados em uma arquitetura somente de decodificação, semelhante ao GPT, para tarefas generativas.

Em breve: Sandstone

Os modelos Sandstone usam uma arquitetura de codificador-decodificador e são adequados para ajustes finos em tarefas específicas.

Em breve: Obsidian

Os modelos Obsidian utilizam uma nova arquitetura modular desenvolvida pela IBM Research, fornecendo alta eficiência de inferência e níveis de desempenho em uma variedade de tarefas.