Fiéis ao seu nome, os modelos de IA generativa geram texto, imagens, código ou outras respostas com base em uma solicitação do usuário. As organizações que os utilizam corretamente podem ver uma infinidade de benefícios, desde maior eficiência operacional e melhor tomada de decisões até a rápida criação de conteúdo de marketing. Mas o que torna possível a funcionalidade generativa desses modelos (e, em última análise, seus benefícios para a organização)?
É aí que o modelo de base entra em cena. É o mecanismo subjacente que fornece aos modelos generativos o raciocínio aprimorado e os recursos de deep learning que os modelos tradicionais de aprendizado de máquina não possuem. Juntamente com os armazenamentos de dados, os modelos de base possibilitam criar e personalizar ferramentas de IA generativa para organizações de todos os setores que buscam otimizar funções de atenção ao cliente, marketing, RH (incluindo aquisição de talentos) e TI.
Também conhecido como transformador, um modelo de base é um algoritmo de IA treinado com vastas quantidades de dados amplos. O termo "modelo de base" foi cunhado pelo Stanford Institute for Human-Centered Artificial Intelligence em 2021.
Um modelo de base é construído em uma arquitetura de redes neurais para processar informações da mesma forma que o cérebro humano. Os modelos de base podem ser treinados para executar tarefas como classificação de dados, identificação de objetos em imagens (visão computacional) e processamento de linguagem natural (NLP) (compreensão e geração de texto) com alto grau de precisão. Eles também podem realizar aprendizado autossupervisionado para generalizar e aplicar seus conhecimentos a novas tarefas.
Em vez de gastar tempo e esforço treinando um modelo a partir do zero, os cientistas de dados podem usar modelos de base pré-treinados como pontos de partida para criar ou personalizar modelos de IA generativa para um caso de uso específico. Por exemplo, um modelo de base pode ser usado como base para um modelo de IA generativa que recebe, então, um ajuste fino com conjuntos de dados de fabricação adicionais para auxiliar na descoberta de formas mais seguras e rápidas de fabricar um tipo de produto.
Um tipo específico de modelo de base conhecido como grandes modelos de linguagem (LLM) é treinado em vastas quantidades de dados de texto para tarefas de NLP. O BERT (Bi-directional Encoder Representations from Transformers) é um dos primeiros modelos de base de LLM desenvolvido. Um modelo de código aberto, o Google criou o BERT em 2018. Ele foi pré-treinado em um grande corpus de dados em inglês com autossupervisão e pode ser usado para uma variedade de tarefas, como:
Um modelo de base usado para IA generativa difere de um modelo tradicional de aprendizado de máquina porque pode ser treinado em grandes quantidades de dados não rotulados para permitir aplicações que geram conteúdo ou executam tarefas.
Por outro lado, um modelo de aprendizado de máquina tradicional normalmente é treinado para executar uma única tarefa usando dados rotulados, como usar imagens rotuladas de carros para treinar o modelo para reconhecer carros em imagens não rotuladas.
O estúdio watsonx.ai da IBM é um pacote de modelos de base de linguagem e código, cada um com um nome de código com tema de geologia, que pode ser personalizado para uma série de tarefas empresariais. Todos os modelos do watsonx.ai são treinados no data lake curado e focado em empresas da IBM.
O Slate se refere a uma família de modelos somente de codificadores que, embora não sejam generativos, são rápidos e eficazes para muitas tarefas corporativas de NLP.
Os modelos Granite são baseados em uma arquitetura somente de decodificação, semelhante ao GPT, para tarefas generativas.
Os modelos Sandstone usam uma arquitetura de codificador-decodificador e são adequados para ajustes finos em tarefas específicas.
Os modelos Obsidian utilizam uma nova arquitetura modular desenvolvida pela IBM Research, fornecendo alta eficiência de inferência e níveis de desempenho em uma variedade de tarefas.
Sem acesso seguro a conhecimentos confiáveis e específicos do domínio, os modelos de base seriam muito menos confiáveis e benéficos para as aplicações de IA empresariais. Felizmente, os armazenamentos de dados servem como repositórios de dados seguros e permitem que os modelos de base sejam escalados em termos de tamanho e de dados de treinamento.
Os armazenamentos de dados adequados para a IA generativa focada em negócios são construídos em uma arquitetura de lakehouse aberta, combinando as qualidades de um data lake e de um data warehouse. Essa arquitetura proporciona economia com um object storage de baixo custo e permite o compartilhamento de grandes volumes de dados por meio de formatos de tabelas abertas, como o Apache Iceberg, desenvolvido para análise de dados de alto desempenho e processamento de dados em grande escala.
Os modelos de base podem consultar volumes muito grandes de dados específicos do domínio em um contêiner escalável e econômico. E, como esses tipos de armazenamentos de dados combinados com nuvem permitem escalabilidade praticamente ilimitada, as lacunas de conhecimento de um modelo de base são reduzidas ou até mesmo eliminadas ao longo do tempo com a adição de mais dados. Quanto mais lacunas forem preenchidas, mais confiável se tornará um modelo de base e maior será seu escopo.
Os armazenamentos de dados fornecem aos cientistas de dados um repositório que podem usar para reunir e limpar os dados usados para treinamento e ajuste fino dos modelos de base. E os armazenamentos de dados que aproveitam as infraestruturas de nuvem e nuvem híbrida de provedores terceirizados para processar uma vasta quantidade de dados são críticos para a eficiência de custo da IA generativa.
Quando os modelos de base acessam informações em armazenamentos de dados e recebem ajuste fino na forma como usam essas informações para realizar diferentes tarefas e gerar respostas, as ferramentas de IA generativa resultantes podem ajudar as organizações a alcançar benefícios como:
Os cientistas de dados podem usar modelos pré-treinados para implementar com eficiência as ferramentas de IA em uma variedade de situações de missão crítica.
Os desenvolvedores podem escrever, testar e documentar com mais rapidez usando ferramentas de IA que geram trechos de código personalizados.
Os executivos podem receber resumos gerados por IA de relatórios extensos, enquanto os novos funcionários recebem versões concisas do material de integração e outros materiais de apoio.
As organizações podem usar ferramentas de IA generativa para a automação de várias tarefas, incluindo:
As equipes de marketing podem usar ferramentas de IA generativa para ajudar a criar conteúdo sobre uma ampla gama de tópicos. Elas também podem traduzir rapidamente e com precisão o material de marketing para vários idiomas.
Líderes de negócios e outros stakeholders podem realizar análises assistidas por IA para interpretar grandes quantidades de dados não estruturados, o que lhes dá uma melhor compreensão do mercado, do sentimento reputacional etc.
Para ajudar as organizações a multiplicar o impacto da IA em seus negócios, a IBM oferece o watsonx, nosso portfólio de produtos de IA. O portfólio compreende três produtos poderosos:
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.