Ao visitar um país cujo idioma você não conhece, pode ser necessário confiar em um amigo para traduzir conversas ou em um aplicativo de tradução para pedir orientações. Dessa forma, você não precisaria aprender o idioma inteiro, especialmente para viagens curtas.
No domínio de grandes modelos de linguagem (LLMs), as interfaces de programação de aplicativos (APIs) atuam como tradutores, permitindo uma troca sem dificuldades entre LLMs e aplicações de inteligência artificial (IA). Essas interfaces facilitam a integração de recursos de processamento de linguagem natural (NLP) e Natural Language Understanding a sistemas de software.
Por meio de APIs de LLMs, as empresas podem aproveitar os modelos de IA em seus fluxos de trabalho. Varejistas online, por exemplo, podem conectar seu chatbot para atendimento ao cliente a um modelo de linguagem para respostas mais personalizadas que promovam interações naturais e envolventes. Da mesma forma, as empresas podem vincular seu assistente de programação de IA a um LLM para análise e geração de código mais robustas.
As APIs de LLMs geralmente seguem uma arquitetura de solicitação e resposta, composta por uma série de etapas:
Uma aplicação envia uma solicitação — geralmente na forma de uma solicitação de hypertext transfer protocol (HTTP) — para a API. Antes da transmissão, o aplicativo primeiro converte a solicitação no formato de dados exigido pela API (geralmente em JavaScript Object Notation ou JSON), que contém informações como a variante do modelo, o prompt real e outros parâmetros.
Após receber a solicitação, a API a encaminha para o LLM processar.
O modelo de aprendizado de máquina baseia-se em suas habilidades de NLP, seja geração de conteúdo, resposta a perguntas, análise de sentimentos, geração de texto ou sumarização de texto, para produzir uma resposta que é transmitida à API.
A API envia essa resposta de volta à aplicação.
Para acessar uma API de LLM, os usuários precisam se cadastrar no provedor escolhido e gerar chaves de API para autenticação.
Os preços são um componente importante das APIs de LLMs. Os provedores oferecem diferentes faixas de preço com base nos modelos utilizados.
Para entender como funcionam os preços das API de LLMs, você precisa primeiro compreender o conceito de tokens. Para modelos de linguagem, os tokens são representações de palavras legíveis por máquina. Um token pode ser uma letra, um sinal de pontuação, parte de uma palavra ou a própria palavra inteira.
Tokens são as menores unidades de texto que um modelo pode processar como entrada e gerar como saída. Eles servem como base para os preços. A maioria dos provedores usa um modelo de pagamento conforme o uso, cobrando pelo acesso à API do LLM com base em mil ou milhão de tokens, com preços separados para tokens de entrada e saída.
Esse modelo de preços baseado em tokens reflete os custos computacionais e de processamento associados à execução de LLMs. Ele também permite transparência e flexibilidade, acomodando diferentes padrões de uso entre empresas.
Combinar dados ou serviços empresariais com a camada de IA oferecida pelas APIs de LLMs resulta em aplicações mais robustas para o mundo real. Aqui estão alguns benefícios que as APIs de LLMs podem proporcionar:
Apesar desses ganhos, as APIs de LLMs também trazem desafios:
As APIs de LLMs abrem possibilidades para as empresas obterem todo o potencial de suas aplicações por meio da IA. Aqui estão cinco técnicas para ajudar as empresas a usar as APIs de LLMs com mais eficiência:
Selecione o modelo de linguagem que melhor se adapta a seu caso de uso. Comece com funcionalidades básicas e gradualmente cresça para recursos mais avançados.
Por exemplo, se o objetivo for apenas análise de sentimentos, um modelo menor, mais antigo e mais econômico pode ser suficiente. No entanto, se a necessidade for de respostas rápidas e em tempo real, como no caso de chatbots para atendimento ao cliente e aplicativos de tradução, talvez seja melhor escolher um modelo maior e mais recente. Para tarefas mais complexas, pode ser necessário optar pela variante mais nova e avançada do modelo.
Alguns provedores até fornecem APIs e modelos adaptados para casos de uso específicos. O API Assistants da OpenAI é direcionada para a criação de assistentes de IA, enquanto o Mistral possui APIs para tarefas de programação e visão computacional. Você também pode considerar o ajuste fino das APIs para ajustar um modelo com os dados de treinamento da sua organização.
O custo do uso de APIs de LLMs pode aumentar rapidamente e, por isso, é essencial monitorar seu uso. A maioria dos provedores oferece dashboards ou ferramentas para acompanhar o consumo de tokens e definir limites de gastos mensais para gerenciar os custos. Mantenha-se atualizado sobre mudanças de preços e atualizações de algoritmos que possam se alinhar melhor a seu orçamento e gerar mais valor.
Alguns provedores oferecem preços mais baixos ou descontos em determinados serviços. O API Gemini do Google, assim como a OpenAI, possui um custo reduzido para armazenamento em cache de contexto, no qual um conjunto de tokens de entrada é armazenado em cache para recuperação por solicitações subsequentes. Essa prática é útil quando conteúdos repetitivos são passados para um modelo, seja uma instrução recorrente de um chatbot, consultas repetidas para um conjunto de dados ou correções semelhantes de bugs em uma base de código.
Enquanto isso, a OpenAI oferece descontos para processamento em lote por meio de sua Batch API (o Anthropic e o Mistral possuem APIs semelhantes). Esse processamento assíncrono pode ser uma opção econômica para enviar grupos de solicitações em grandes conjuntos de dados que não exigem respostas imediatas, como a sumarização de documentos extensos ou a classificação de conteúdo.
Aproveite os níveis sem custo das APIs de LLMs. Esses níveis não têm custo, mas possuem limites de tokens ou uso. Para empresas com orçamento restrito, os níveis sem custo de APIs de LLMs podem ser uma opção viável para testar aplicativos ou desenvolver protótipos.
A segurança de APIs é essencial para qualquer organização. Aqui estão algumas maneiras de proteger as interações das APIs com os LLMs:
Tokens geram custo e, portanto, minimizar a contagem de tokens de entrada pode ajudar a reduzir o custo e melhorar o desempenho. Uma maneira de minimizar os tokens de entrada é por meio da otimização dos tokens, que usa muito as táticas de engenharia de prompts.
Aqui estão algumas estratégias para otimização de tokens:
Depois de aplicar as técnicas de otimização relevantes, refine continuamente seus prompts com base nas saídas do modelo. Verifique essas saídas para garantir que estejam corretas e precisas.
Observe seus padrões de uso para ver se estão de acordo com seu orçamento e se você está implementando o modelo mais econômico. Empregue soluções de monitoramento de APIs para acompanhar o desempenho das APIs de LLMs de acordo com métricas-chave, como tempo de resposta, latência e taxas de erro, para maximizar a eficácia do modelo escolhido.
As APIs de LLMs são um mercado em crescimento. Muitos desenvolvedores de LLMs possuem suas próprias APIs, enquanto outros fornecedores externos oferecem acesso a diversos grandes modelos de linguagem.
A empresa independente de benchmarking Artificial Analysis mantém um popular ranking de APIs de LLMs (link externo a ibm.com), que compara e classifica diferentes endpoints de APIs com base em métricas como latência, velocidade de saída, qualidade e preço.
Veja abaixo algumas APIs de LLMs populares:
A empresa de pesquisa de IA Anthropic tem APIs (link externo a ibm.com) para sua família Claude de grandes modelos de linguagem. Esses modelos incluem o Claude 3.5 Sonnet, a mais recente oferta premium da empresa; o Claude 3.5 Haiku, seu modelo mais rápido e econômico; e o Claude 3 Opus, um modelo poderoso para tarefas complexas. As APIs também estão disponíveis para versões de modelos mais antigos, como o Claude 3 Haiku e o Claude 3 Sonnet.
Há três maneiras de acessar a API (link externo ao ibm.com): pelo console web da Anthropic, por meio de bibliotecas de desenvolvedores em Python e TypeScript no GitHub e em plataformas parceiras como Amazon Bedrock e Google Cloud Vertex AI.
A empresa de IA Cohere fornece sua própria API (link externo a ibm.com) para o Command R+, seu LLM desenvolvido especificamente para casos de uso corporativo, e o Command R, um modelo de IA generativa otimizado para geração aumentada de recuperação (RAG) e funcionalidade de IA agêntica. Os desenvolvedores podem acessar a API (link externo a ibm.com) usando a ferramenta de interface de linhas de comandos da Cohere ou por meio das bibliotecas Go, Java, Python e TypeScript no GitHub.
O Google oferece APIs (link externo a ibm.com) para seu pacote Gemini de grandes modelos de linguagem. Esses modelos incluem o Gemini 1.5 Flash, seu modelo de IA multimodal mais rápido; o Gemini 1.5 Flash-8B, seu menor modelo; o Gemini 1.5 Pro, seu modelo de última geração; e o Gemini 1.0 Pro, seu modelo de primeira geração.
Os desenvolvedores podem acessar a API do Gemini (link externo a ibm.com) no Google AI Studio e no Google Cloud Vertex AI. Bibliotecas de desenvolvimento de software também estão disponíveis em diferentes linguagens de programação.
O IBM Granite é a série principal de modelos de base de LLMs da IBM. Os desenvolvedores podem usar APIs na plataforma IBM watsonx para acessar os modelos Granite 3.0, especificamente o Granite 3.0 2B Instruct e o Granite 3.0 8B Instruct, modelos ajustados por instruções com dois e oito bilhões de parâmetros. Os modelos de código aberto Granite 3.0 também estão disponíveis por meio de parceiros de plataforma, como Google Vertex IA e Hugging Face.
O Llama é a coleção de modelos de IA de código aberto da Meta. Os modelos Llama 3, particularmente as versões 3.1, podem ser acessados por meio das APIs dos vários parceiros do ecossistema da Meta (link externo a ibm.com).
A Meta também lançou o Llama Stack (link externo a ibm.com) para agilizar o desenvolvimento e a implementação de aplicativos de IA criados com base nos modelos Llama. O Llama Stack consiste em um conjunto de APIs interoperáveis para agentes, inferência, memória e segurança, entre outros.
A Mistral AI tem diferentes endpoints de APIs (link externo a ibm.com) para seus principais modelos, como o Mistral Large, Mistral Small e Ministral, e modelos gratuitos, incluindo o Mistral NeMo e Mistral 7B. A empresa também oferece uma API de ajuste fino. A API da Mistral pode ser acessada por meio de sua própria plataforma de desenvolvimento, a La Planforme, e de plataformas de parceiros, como o IBM watsonx e Microsoft Azure AI.
A OpenAI, a empresa por trás do ChatGPT, fornece APIs para seus vários modelos (link externo a ibm.com). Essas APIs incluem seus modelos mais recentes de transformador pré-treinado generativo (GPT), GPT-4o e GPT-4o mini, e modelos mais antigos de GPT da OpenAI, como o GPT-4 Turbo e o GPT-3.5 Turbo.
Os modelos de geração de texto da OpenAI utilizam um endpoint de API para conclusão de chat, mas também incluem outras APIs, como a API de imagens para o modelo de imagens da OpenAI, a API de áudio para o modelo de text to speech e a API em tempo real para aplicações de baixa latência. Desenvolvedores podem acessar a API da OpenAI por meio da plataforma OpenAI e bibliotecas de desenvolvimento de software em várias linguagens de programação.
As APIs de LLMs desempenham um papel fundamental no pipeline de IA. Ao combinar o poder de raciocínio dos LLMs com a usabilidade das interfaces programadas, as APIs de LLMs conectam grandes modelos de linguagem a aplicações corporativas. Compreender o funcionamento interno das APIs de LLMs e como utilizá-las de maneira eficiente pode ajudar as empresas a integrar melhor a IA a seus sistemas.
Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.
Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.