A chamada de ferramentas envolve vários componentes importantes que trabalham juntos para facilitar a interação da IA com ferramentas externas. Todos os LLMs modernos, incluindo o Claude da Anthropic, Llama 3 da Meta, Mistral e IBM Granite, possuem recursos de chamada de ferramentas, mas lidam com cada um de forma um pouco diferente.
O primeiro componente é o próprio modelo de IA, que identifica quando não tem conhecimento suficiente ou precisa de uma função externa para completar uma solicitação.
Em seguida, o mecanismo de seleção de ferramentas identifica as dependências apropriadas para executar a tarefa, seja um buscador, um banco de dados ou um recurso computacional.
Quando a ferramenta é escolhida, a interface da API entra em ação, permitindo que a IA envie consultas estruturadas e receba respostas em formato legível por máquina.
Por fim, o sistema de processamento de respostas garante que os dados recuperados sejam formatados corretamente e apresentados de forma significativa ao usuário.
Etapa 1. Reconhecimento da necessidade de uma ferramenta
Imagine que um usuário pergunta a um LLM: “Como está o tempo agora em San Francisco?” A IA aplica natural language understanding para entender que precisa acessar dados climáticos em tempo real, algo que sua base de conhecimento estática não oferece.
Ao solicitar uma ferramenta, o modelo recebe automaticamente uma ID única, que serve como número de referência para associar a requisição a seu respectivo resultado.
Etapa 2. Seleção da ferramenta
A IA identifica a ferramenta mais adequada para a tarefa, como consultar uma base de dados de clima atual. Essa escolha garante que as informações obtidas sejam precisas e relevantes.
Cada ferramenta reúne metadados e informações estruturadas, como um nome único (ou nome da função), que facilita a identificação correta pelo modelo e pelo sistema. Outros metadados incluem descrição, parâmetros da ferramenta e tipos exigidos de entradas e saídas.
O modelo realiza uma escolha de ferramenta após determinar que os dados devem ser obtidos de uma seleção de ferramentas disponíveis.
Os modelos são formatos de prompts estruturados que orientam o modelo sobre qual ferramenta usar e quais argumentos (“args”) fornecer, permitindo uma interação mais controlada com APIs.
No contexto da chamada de ferramentas, args referem-se às entradas estruturadas passados para uma ferramenta ou função quando ela é iniciada por um modelo generativo. Esses argumentos definem os parâmetros que a ferramenta requer para ser executada corretamente.
A combinação de chamadas de ferramentas com geração aumentada de recuperação (RAG) aprimora os recursos da IA, permitindo que os sistemas recuperem dados estruturados e não estruturados antes de gerar saídas estruturadas.
Essa abordagem aumenta a relevância contextual ao buscar os dados mais pertinentes antes de gerar uma resposta, levando a saídas mais informadas e precisas.
Ela também minimiza a sobrecarga da API ao consolidar várias recuperações em uma única etapa, reduzindo a latência e os custos. A RAG é mais flexível do que as chamadas de ferramentas tradicionais, permitindo que os modelos extraiam de diversas fontes e tornando-a altamente adaptável em diferentes domínios.
Diferente da rigidez do uso tradicional de ferramentas, a RAG permite uma integração mais fluida do conhecimento recuperado com o raciocínio e a geração, resultando em respostas mais dinâmicas e perspicazes.
Etapa 3. Construção e envio de uma consulta
Em seguida, a IA formula uma solicitação estruturada que a ferramenta ou API pode entender.
Cada ferramenta possui funções específicas que definem seu propósito. Essas funções dependem de uma referência de API, que traz a documentação sobre como interagir com a ferramenta, incluindo as URLs dos endpoints, os métodos de requisição e os formatos de respostas.
Para acessar uma API externa, muitos serviços exigem uma chave de API, que funciona como um identificador único e libera o envio de requisições. Com a ferramenta escolhida e os parâmetros definidos, a IA realiza a chamada de API para buscar os dados solicitados. Essa solicitação normalmente é enviada via HTTP para um servidor externo.
Etapa 4. Recebimento e processamento da resposta
A ferramenta externa envia os dados de volta. A IA precisa interpretar os resultados da ferramenta. Em uma consulta sobre o clima, por exemplo, a API pode responder com um objeto de esquema JSON que inclui temperatura, umidade e velocidade do vento. A IA organiza e filtra essas informações para oferecer uma resposta útil ao usuário.
Etapa 5. Apresentação das informações ou ação
A IA apresenta as informações processadas de forma clara e intuitiva. Se a solicitação envolver alguma automação, como definir um lembrete, a IA confirma que a ação foi agendada.
Etapa 6. Refinamento d a pesquisa
Se o usuário pedir mais detalhes ou modificações, a IA pode repetir o processo com uma nova consulta, garantindo que a resposta fique cada vez mais alinhada às necessidades do usuário.
O LangChain é amplamente utilizado na chamada de ferramentas, fornecendo um framework de código aberto para a integração de ferramentas, APIs e funções externas aos LLMs. Ele ajuda a gerenciar a execução de ferramentas, o tratamento de entradas ou saídas e a tomada de decisão com base no contexto.
Por exemplo, o LangChain processa os argumentos de função com um parser que interpreta a consulta do usuário, extrai os parâmetros relevantes e os formata corretamente para a ferramenta. Ao contrário da chamada de ferramentas simples, o LangChain pode armazenar e recuperar saídas de ferramentas anteriores, permitindo melhores interações multivoltas.
O LangChain permite combinar várias ferramentas em sequência, criando fluxos de trabalho agênticos mais complexos. Por exemplo, ele pode buscar dados na API de clima e depois usar outra ferramenta para sugerir roupas com base na previsão.