APIs de LLMs: dicas para preencher a lacuna

Autores

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Ao visitar um país cujo idioma você não conhece, pode ser necessário confiar em um amigo para traduzir conversas ou em um aplicativo de tradução para pedir orientações. Dessa forma, você não precisaria aprender o idioma inteiro, especialmente para viagens curtas.

No domínio de grandes modelos de linguagem (LLMs), as interfaces de programação de aplicativos (APIs) atuam como tradutores, permitindo uma troca sem dificuldades entre LLMs e aplicações de inteligência artificial (IA). Essas interfaces facilitam a integração de recursos de processamento de linguagem natural (NLP) e Natural Language Understanding a sistemas de software.

Por meio de APIs de LLMs, as empresas podem aproveitar os modelos de IA em seus fluxos de trabalho. Varejistas online, por exemplo, podem conectar seu chatbot para atendimento ao cliente a um modelo de linguagem para respostas mais personalizadas que promovam interações naturais e envolventes. Da mesma forma, as empresas podem vincular seu assistente de programação de IA a um LLM para análise e geração de código mais robustas.

Como funcionam as APIs de LLMs

As APIs de LLMs geralmente seguem uma arquitetura de solicitação e resposta, composta por uma série de etapas:

Uma aplicação envia uma solicitação — geralmente na forma de uma solicitação de hypertext transfer protocol (HTTP) — para a API. Antes da transmissão, o aplicativo primeiro converte a solicitação no formato de dados exigido pela API (geralmente em JavaScript Object Notation ou JSON), que contém informações como a variante do modelo, o prompt real e outros parâmetros.
Após receber a solicitação, a API a encaminha para o LLM processar.
O modelo de aprendizado de máquina baseia-se em suas habilidades de NLP, seja geração de conteúdo, resposta a perguntas, análise de sentimentos, geração de texto ou sumarização de texto, para produzir uma resposta que é transmitida à API.
A API envia essa resposta de volta à aplicação.

Para acessar uma API de LLM, os usuários precisam se cadastrar no provedor escolhido e gerar chaves de API para autenticação.

Tokens e preços

Os preços são um componente importante das APIs de LLMs. Os provedores oferecem diferentes faixas de preço com base nos modelos utilizados.

Para entender como funcionam os preços das API de LLMs, você precisa primeiro compreender o conceito de tokens. Para modelos de linguagem, os tokens são representações de palavras legíveis por máquina. Um token pode ser uma letra, um sinal de pontuação, parte de uma palavra ou a própria palavra inteira.

Tokens são as menores unidades de texto que um modelo pode processar como entrada e gerar como saída. Eles servem como base para os preços. A maioria dos provedores usa um modelo de pagamento conforme o uso, cobrando pelo acesso à API do LLM com base em mil ou milhão de tokens, com preços separados para tokens de entrada e saída.

Esse modelo de preços baseado em tokens reflete os custos computacionais e de processamento associados à execução de LLMs. Ele também permite transparência e flexibilidade, acomodando diferentes padrões de uso entre empresas.

Benefícios e desafios das APIs de LLMs

Combinar dados ou serviços empresariais com a camada de IA oferecida pelas APIs de LLMs resulta em aplicações mais robustas para o mundo real. Aqui estão alguns benefícios que as APIs de LLMs podem proporcionar:

Acessibilidade: as empresas podem aproveitar os recursos de linguagem de IA sem precisar de conhecimento abrangente e experiência em IA. Elas também não precisarão investir no desenvolvimento de seus próprios modelos e nos custos de infraestrutura associados.
Personalização: por meio das APIs de LLMs, as organizações podem realizar o ajuste fino de grandes modelos de linguagem para se adequar a tarefas ou domínios específicos.
Atualizações periódicas: os provedores atualizam regularmente seus algoritmos para melhorar o desempenho e acompanhar o ritmo acelerado da evolução da IA.
Escalabilidade: as APIs de LLMs geralmente podem lidar com grandes volumes de solicitações simultaneamente, escalando conforme a empresa cresça.

Apesar desses ganhos, as APIs de LLMs também trazem desafios:

Custar: essas interfaces podem ser caras, principalmente para uso em grande escala ou alto volume. As empresas devem gerenciar seus custos de forma eficaz para maximizar o valor das APIs de LLMs.
Vulnerabilidades de segurança: agentes mal-intencionados podem usar endpoints de APIs para fins maliciosos, como extrair dados confidenciais, instalar malware ou realizar ataques de distributed denial-of-service (DDoS) enviando uma enxurrada de solicitações.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA  

Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think.

Dicas para usar as APIs de LLMs de forma eficiente

As APIs de LLMs abrem possibilidades para as empresas obterem todo o potencial de suas aplicações por meio da IA. Aqui estão cinco técnicas para ajudar as empresas a usar as APIs de LLMs com mais eficiência:

1. Considere seu caso de uso

Selecione o modelo de linguagem que melhor se adapta a seu caso de uso. Comece com funcionalidades básicas e gradualmente cresça para recursos mais avançados.

Por exemplo, se o objetivo for apenas análise de sentimentos, um modelo menor, mais antigo e mais econômico pode ser suficiente. No entanto, se a necessidade for de respostas rápidas e em tempo real, como no caso de chatbots para atendimento ao cliente e aplicativos de tradução, talvez seja melhor escolher um modelo maior e mais recente. Para tarefas mais complexas, pode ser necessário optar pela variante mais nova e avançada do modelo.

Alguns provedores até fornecem APIs e modelos adaptados para casos de uso específicos. O API Assistants da OpenAI é direcionada para a criação de assistentes de IA, enquanto o Mistral possui APIs para tarefas de programação e visão computacional. Você também pode considerar o ajuste fino das APIs para ajustar um modelo com os dados de treinamento da sua organização.

2. Gerencie custos

O custo do uso de APIs de LLMs pode aumentar rapidamente e, por isso, é essencial monitorar seu uso. A maioria dos provedores oferece dashboards ou ferramentas para acompanhar o consumo de tokens e definir limites de gastos mensais para gerenciar os custos. Mantenha-se atualizado sobre mudanças de preços e atualizações de algoritmos que possam se alinhar melhor a seu orçamento e gerar mais valor.

Alguns provedores oferecem preços mais baixos ou descontos em determinados serviços. O API Gemini do Google, assim como a OpenAI, possui um custo reduzido para armazenamento em cache de contexto, no qual um conjunto de tokens de entrada é armazenado em cache para recuperação por solicitações subsequentes. Essa prática é útil quando conteúdos repetitivos são passados para um modelo, seja uma instrução recorrente de um chatbot, consultas repetidas para um conjunto de dados ou correções semelhantes de bugs em uma base de código.

Enquanto isso, a OpenAI oferece descontos para processamento em lote por meio de sua Batch API (o Anthropic e o Mistral possuem APIs semelhantes). Esse processamento assíncrono pode ser uma opção econômica para enviar grupos de solicitações em grandes conjuntos de dados que não exigem respostas imediatas, como a sumarização de documentos extensos ou a classificação de conteúdo.

Aproveite os níveis sem custo das APIs de LLMs. Esses níveis não têm custo, mas possuem limites de tokens ou uso. Para empresas com orçamento restrito, os níveis sem custo de APIs de LLMs podem ser uma opção viável para testar aplicativos ou desenvolver protótipos.

3. Mantenha a segurança em primeiro lugar

A segurança de APIs é essencial para qualquer organização. Aqui estão algumas maneiras de proteger as interações das APIs com os LLMs:

Implemente protocolos seguros para criptografar as informações que passam pela API do LLM, protegendo, assim, os dados em trânsito.
Estabeleça políticas de controle de acesso para que apenas usuários autorizados possam acessar as chaves de API e limite o acesso à própria API.
Remova todas as informações confidenciais dos conjuntos de dados antes de enviá-los por meio de APIs de LLMs.
Avalie as medidas e políticas de segurança do provedor de APIs de LLMs escolhido.

4. Otimize, otimize, otimize

Tokens geram custo e, portanto, minimizar a contagem de tokens de entrada pode ajudar a reduzir o custo e melhorar o desempenho. Uma maneira de minimizar os tokens de entrada é por meio da otimização dos tokens, que usa muito as táticas de engenharia de prompts.

Aqui estão algumas estratégias para otimização de tokens:

Crie prompts claros e concisos. Use linguagem direta e instruções focadas.
Divida os prompts longos em partes menores e significativas, se não for possível evitar um prompt longo.
Remova dados redundantes e detalhes desnecessários.
Forneça exemplos curtos e altamente representativos em um formato estruturado e consistente, em termos de contexto. Inclua apenas as informações críticas para que o modelo entenda a tarefa.

5. Refine e monitore

Depois de aplicar as técnicas de otimização relevantes, refine continuamente seus prompts com base nas saídas do modelo. Verifique essas saídas para garantir que estejam corretas e precisas.

Observe seus padrões de uso para ver se estão de acordo com seu orçamento e se você está implementando o modelo mais econômico. Empregue soluções de monitoramento de APIs para acompanhar o desempenho das APIs de LLMs de acordo com métricas-chave, como tempo de resposta, latência e taxas de erro, para maximizar a eficácia do modelo escolhido.

APIs de LLMs populares

As APIs de LLMs são um mercado em crescimento. Muitos desenvolvedores de LLMs possuem suas próprias APIs, enquanto outros fornecedores externos oferecem acesso a diversos grandes modelos de linguagem.

A empresa independente de benchmarking Artificial Analysis mantém um popular ranking de APIs de LLMs (link externo a ibm.com), que compara e classifica diferentes endpoints de APIs com base em métricas como latência, velocidade de saída, qualidade e preço.

Veja abaixo algumas APIs de LLMs populares:

Anthropic

A empresa de pesquisa de IA Anthropic tem APIs (link externo a ibm.com) para sua família Claude de grandes modelos de linguagem. Esses modelos incluem o Claude 3.5 Sonnet, a mais recente oferta premium da empresa; o Claude 3.5 Haiku, seu modelo mais rápido e econômico; e o Claude 3 Opus, um modelo poderoso para tarefas complexas. As APIs também estão disponíveis para versões de modelos mais antigos, como o Claude 3 Haiku e o Claude 3 Sonnet.

Há três maneiras de acessar a API (link externo ao ibm.com): pelo console web da Anthropic, por meio de bibliotecas de desenvolvedores em Python e TypeScript no GitHub e em plataformas parceiras como Amazon Bedrock e Google Cloud Vertex AI.

Cohere

A empresa de IA Cohere fornece sua própria API (link externo a ibm.com) para o Command R+, seu LLM desenvolvido especificamente para casos de uso corporativo, e o Command R, um modelo de IA generativa otimizado para geração aumentada de recuperação (RAG) e funcionalidade de IA agêntica. Os desenvolvedores podem acessar a API (link externo a ibm.com) usando a ferramenta de interface de linhas de comandos da Cohere ou por meio das bibliotecas Go, Java, Python e TypeScript no GitHub.

Google

O Google oferece APIs (link externo a ibm.com) para seu pacote Gemini de grandes modelos de linguagem. Esses modelos incluem o Gemini 1.5 Flash, seu modelo de IA multimodal mais rápido; o Gemini 1.5 Flash-8B, seu menor modelo; o Gemini 1.5 Pro, seu modelo de última geração; e o Gemini 1.0 Pro, seu modelo de primeira geração.

Os desenvolvedores podem acessar a API do Gemini (link externo a ibm.com) no Google AI Studio e no Google Cloud Vertex AI. Bibliotecas de desenvolvimento de software também estão disponíveis em diferentes linguagens de programação.

IBM

O IBM Granite é a série principal de modelos de base de LLMs da IBM. Os desenvolvedores podem usar APIs na plataforma IBM watsonx para acessar os modelos Granite 3.0, especificamente o Granite 3.0 2B Instruct e o Granite 3.0 8B Instruct, modelos ajustados por instruções com dois e oito bilhões de parâmetros. Os modelos de código aberto Granite 3.0 também estão disponíveis por meio de parceiros de plataforma, como Google Vertex IA e Hugging Face.

Mistral

A Mistral AI tem diferentes endpoints de APIs (link externo a ibm.com) para seus principais modelos, como o Mistral Large, Mistral Small e Ministral, e modelos gratuitos, incluindo o Mistral NeMo e Mistral 7B. A empresa também oferece uma API de ajuste fino. A API da Mistral pode ser acessada por meio de sua própria plataforma de desenvolvimento, a La Planforme, e de plataformas de parceiros, como o IBM watsonx e Microsoft Azure AI.

OpenAI

A OpenAI, a empresa por trás do ChatGPT, fornece APIs para seus vários modelos (link externo a ibm.com). Essas APIs incluem seus modelos mais recentes de transformador pré-treinado generativo (GPT), GPT-4o e GPT-4o mini, e modelos mais antigos de GPT da OpenAI, como o GPT-4 Turbo e o GPT-3.5 Turbo.

Os modelos de geração de texto da OpenAI utilizam um endpoint de API para conclusão de chat, mas também incluem outras APIs, como a API de imagens para o modelo de imagens da OpenAI, a API de áudio para o modelo de text to speech e a API em tempo real para aplicações de baixa latência. Desenvolvedores podem acessar a API da OpenAI por meio da plataforma OpenAI e bibliotecas de desenvolvimento de software em várias linguagens de programação.

As APIs de LLMs desempenham um papel fundamental no pipeline de IA. Ao combinar o poder de raciocínio dos LLMs com a usabilidade das interfaces programadas, as APIs de LLMs conectam grandes modelos de linguagem a aplicações corporativas. Compreender o funcionamento interno das APIs de LLMs e como utilizá-las de maneira eficiente pode ajudar as empresas a integrar melhor a IA a seus sistemas.

AI Academy

Por que os modelos de base são uma mudança de paradigma para a IA

Aprenda sobre uma nova classe de modelos de IA flexíveis e reutilizáveis que podem liberar novas receitas, reduzir custos e aumentar a produtividade, e utilize o nosso guia para se aprofundar.

Acessar o episódio

Como escolher o modelo de base certo

Aprenda como escolher a abordagem correta na preparação de conjuntos de dados e no emprego de modelos de base.