LLMs não são aplicações independentes: são modelos estatísticos previamente treinados que devem ser combinados com uma aplicação (e em alguns casos com fontes de dados específicas) para atenderem à sua finalidade.
Por exemplo, o Chat-GPT não é um LLM: é uma aplicação de chatbot que, dependendo da versão escolhida, utiliza o modelo de linguagem GPT-3.5 ou GPT-4. Embora seja o modelo GPT que interpreta a entrada do usuário e compõe uma resposta em linguagem natural, é a aplicação que (entre outras coisas) fornece uma interface para o usuário digitar e ler e um design de UX que governa a experiência do chatbot. Mesmo no nível empresarial, o Chat-GPT não é a única aplicação que emprega o modelo GPT: a Microsoft utiliza o GPT-4 para impulsionar o Bing Chat.
Além disso, embora modelos de base (como os que impulsionam os LLMs) sejam treinados previamente em conjuntos de dados maciços, eles não são oniscientes. Se uma determinada tarefa exigir acesso a informações contextuais específicas, como documentação interna ou conhecimento do domínio, os LLMs deverão estar conectados a essas fontes de dados externas. Mesmo se você quiser que seu modelo reflita a consciência em tempo real dos eventos atuais, ele exige informações externas: os dados internos de um modelo são atualizados somente durante o período em que foi treinado previamente.
Da mesma forma, se uma determinada tarefa de IA generativa exigir acesso a fluxos de trabalho de software externos, por exemplo, se você quiser que seu agente virtual integre-se ao Slack, precisará de uma maneira de integrar o LLM à API desse software.
Embora essas integrações geralmente possam ser obtidas com código totalmente manual, frameworks de orquestração como o LangChain e o portfólio de produtos de inteligência artificial IBM watsonx simplificam muito o processo. Eles também facilitam muito a experimentação com diversos LLMs para comparar os resultados, pois modelos diferentes podem ser trocados com alterações mínimas no código.