O que é um gateway de IA?

Pessoa trabalhando em várias telas

Autora

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

O que é um gateway de IA?

Um gateway de IA é uma plataforma de middleware especializada que facilita a integração, a implementação e o gerenciamento de ferramentas de inteligência artificial (IA), incluindo grandes modelos de linguagem (LLMs) e outros serviços de IA em um ambiente corporativo.

Seja com ferramentas de IA desenvolvidas internamente ou com modelos de terceiros acessados pela nuvem, os gateways oferecem uma camada unificada e leve que conecta aplicações e modelos de IA, garantindo a aplicação consistente de políticas de governança e segurança em todo o ecossistema de ferramentas de IA.

Enquanto os gateways tradicionais de interfaces de programação de aplicativos (API) permitem a troca de dados entre clientes e serviços de back-end, os gateways de IA são projetados para enfrentar os desafios exclusivos das cargas de trabalho de IA. Eles estendem os recursos dos gateways de API padrão para incluir acesso e integração de vários modelos, roteamento inteligente de carga de trabalho de IA, balanceamento de carga dinâmico, rastreamento de consumo de token e limitação de taxas, aplicação de políticas de segurança e mais.

Cargas de trabalho de IA Enterprise podem, por exemplo, exigir infraestruturas de IA sofisticadas capazes de suportar cargas computacionais massivas, especialmente para deep learning e treinamento de grandes modelos. Os sistemas empresariais existentes podem ter dificuldades para entregar a alta largura de banda e o acesso de baixalatência que as empresas precisam para gerenciar modelos de IA em escala de produção.

Os gateways de IA ajudam as equipes de desenvolvimento a gerenciar com mais facilidade arquiteturas complexas orientadas por IA. Eles apresentam um ponto de entrada unificado para todas as interações do modelo de IA, usando APIs baseadas em IA para orquestrar o fluxo de dados, instruções e políticas entre aplicações e sistemas de IA. Essa funcionalidade permite que as equipes controlem como diferentes modelos e fluxos de trabalho são usados e acessados a partir de um único painel de vidro, em vez de depender de uma interface separada para cada modelo.

Dessa forma, os gateways de IA podem ajudar a simplificar o acesso aos ecossistemas de modelos de IA. Eles ajudam a reduzir o atrito que pode acompanhar a integração do modelo e criam uma estrutura de governança centralizada para a adoção da IA em escala empresarial.

Como funciona um API Gateway?

Os gateways de IA atuam como pontes entre os sistemas de IA e as aplicações, centralizando a implementação e a governança dos modelos de IA.

Imagine uma ferramenta de suporte ao cliente em uma plataforma de e-commerce. A ferramenta utiliza um grande modelo de linguagem (para responder às consultas dos usuários), um modelo de análise de sentimento (para determinar o humor dos usuários) e um modelo de reconhecimento de imagem (para analisar qualquer anexo de foto que os usuários enviem durante as interações). Um API gateway ficaria entre os modelos e a plataforma para orquestrar e simplificar a conclusão de tarefas de back-end.

Por exemplo, quando um usuário envia uma consulta de compra com uma captura de tela como prova de uma compra, a aplicação encaminha a mensagem e a foto para o endpoint do gateway de IA. O gateway encaminhará a parte do texto para o LLM e a captura de tela para o modelo de reconhecimento de imagem para obter uma resposta. Ele também envia a mensagem para o modelo de análise de sentimentos para determinar se o usuário parece frustrado ou com raiva.

Ao longo do caminho, o gateway de IA ajuda a garantir que todas as solicitações sejam autenticadas e que nenhum dado confidencial ou privado seja revelado. Por fim, o gateway mescla os resultados de cada modelo em um formato padronizado antes que os resultados sejam retornados ao cliente.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Funcionalidades dos gateways de IA

Os gateways de IA atuam como pontes entre os sistemas e as aplicações de IA, centralizando a governança dos modelos de IA e ajudando as equipes a eliminar a aplicação de proteções fragmentada e inconsistente. Para oferecer essas funcionalidades, no entanto, os gateways de IA devem executar uma série de funções importantes.

Entre eles:

Padronização de APIs

Os gateways de IA impõem um formato de API unificado e canônico para permitir a integração perfeita entre vários modelos de IA e as aplicações que os utilizam. Essencialmente, os gateways ajudam a simplificar a integração de diversos modelos de vários fornecedores de IA. As definições canônicas permitem que as APIs de IA sejam mapeadas para vários fornecedores, de modo que as aplicações sempre funcionem com uma superfície de API consistente, independentemente de qual modelo de IA ou ferramenta seja implementada.

Os gateways de IA criam um plano de controle central que atende às solicitações de aplicações recebidas, automatiza conversões de protocolo e mascara diferenças entre APIs dos provedores de modelos para que os desenvolvedores não precisem reformatar as consultas manualmente. Eles centralizam os controles de acesso, os protocolos de observabilidade e conformidade, o rastreamento de uso e outras práticas de gerenciamento de modelos.

Gerenciamento e orquestração de modelos

A gestão e a orquestração de modelos referem-se ao monitoramento sistemático, à coordenação e à implementação de vários modelos de IA que coexistem no mesmo ambiente. Esses processos, que incluem gerenciamento de ciclo de vida de ponta a ponta (incluindo tarefas como controle de versão, implementação, reversão e atualizações), alocação de recursos, gerenciamento de erros e dimensionamento, entre outros, ajudam a garantir que os modelos funcionem juntos sem dificuldades como parte de um sistema unificado de IA.

Os gateways facilitam a entrega suave e a operação de modelos de IA, para que os desenvolvedores não precisem se preocupar com implementações manuais nem modelos desatualizados. Os gateways de IA também servem como pontos de acesso centrais que roteiam solicitações de dados, gerenciam autenticação e aplicam políticas em modelos, fontes de dados e aplicativos.

Por exemplo, os gateways permitem a seleção dinâmica de modelos em que o gateway seleciona e roteia automaticamente as solicitações de IA para o melhor modelo com base no caso de uso ou nas condições do sistema.

Monitoramento e registro

Os gateways de IA acompanham continuamente o desempenho, o uso e a integridade dos modelos de IA e o tráfego relacionado à IA que eles manipulam, permitindo visibilidade em tempo real. Os gateways monitoram métricas como volume de solicitações, tempos de resposta, taxas de erro e acumulação de custos em níveis granulares (por usuário ou por aplicação, por exemplo).

Como funcionam como hubs de tráfego de IA, os gateways podem unificar o monitoramento em vários modelos de IA e serviços, apresentando uma visão holística do desempenho em um local centralizado (geralmente um dashboard). Também ajudam os desenvolvedores a manter registros detalhados de cada solicitação de IA e resposta, incluindo prompts de entrada, produções de modelos, duração e contagens de uso de tokens, para levar à solução mais rápida de problemas, auditorias de conformidade mais completas e medidas de responsabilidade mais sólidas.

Além disso, os gateways de IA podem se integrar a ferramentas de observabilidade (como o OpenTelemetry) e plataformas de orquestração, automação e resposta de segurança para automatizar fluxos de trabalho de alerta e detecção de incidentes quando ocorrerem problemas.  

Integração de dados

A integração de dados envolve a extração, transformação e carregamento de dados de uma variedade de fontes de dados (como bancos de dados, plataformas de nuvem, aplicações e outros sistemas) em data warehouses centralizados ou lakes para padronizar formatos e remover silos.

Com os gateways de IA, os desenvolvedores podem conectar fontes de dados e fazer a fusão em pipelines unificados para análise preditiva de dados e business intelligence. Os gateways possibilitam a preparação e a alimentação de dados estruturados e dados não estruturados em modelos de IA, processando previamente solicitações recebidas e normalizando formatos de dados para um treinamento de modelos e geração de inferência mais precisos.

Eles também podem usar recursos de aprendizado de máquina (ML) para otimizar o fluxo de dados, detectar anomalias e adaptar o pipeline às mudanças nos padrões de dados.

Aplicação de segurança e conformidade

As ferramentas de IA podem criar riscos consideráveis de segurança e conformidade. Os gateways de IA ajudam a neutralizar esses riscos disponibilizando controles de acesso centralizados e políticas de segurança automáticas para todo o tráfego de dados entre usuários, aplicações e modelos de IA.

Utilizando ferramentas como chaves de API, os gateways de IA gerenciam rigorosamente quem pode acessar quais dados ou modelos de IA restringindo o acesso com base nos perfis de usuário e na atividade da rede; e todo o tráfego relacionado à IA deve passar pelo gateway.

Eles impõem protocolos de criptografia robustos para dados em trânsito e em repouso, minimizando o risco de acesso não autorizado e uso indevido. Os gateways de IA também monitoram a atividade da rede em tempo real, usando recursos como inspeção profunda de pacotes e detecção de anomalias para identificar e bloquear atividades maliciosas.

Os gateways de IA também abrangem várias funções que ajudam as empresas a manter a conformidade com os padrões regulatórios. Os gateways podem limpar informações de identificação pessoal (PII) e dados confidenciais antes de chegarem aos modelos ou saiam da organização. E com filtragem baseada em regras e avaliação de conteúdo, os gateways ajudam a garantir que somente os dados apropriados sejam processados pelos modelos de IA.

Inferência e veiculação

A inferência em IA e ML é a capacidade dos modelos de IA treinados de reconhecer padrões e extrair conclusões de informações que não foram vistas antes. Servir é o processo de implementar modelos de IA treinados e expô-los (com APIs de IA e outras interfaces) para poderem processar solicitações de inferência em um ambiente de produção.

Os gateways de IA usam roteamento com reconhecimento de modelo para direcionar solicitações de inferência para a instância de modelo apropriada. Esse recurso permite a inferência em tempo real e em lote e ajuda os modelos a priorizar tarefas com base na criticidade.

Para facilitar o serviço escalável, os gateways oferecem balanceamento de carga personalizável adaptado às cargas de trabalho de IA, o que pode ser especialmente útil para aplicações sensíveis à latência ou de alto rendimento. Eles também lidam com lançamentos incrementais de novas versões de modelos, mapeando modelos ajustados para serviços subjacentes para facilitar atualizações e reversões.

Essas funcionalidades ajudam os desenvolvedores a entregar produção da IA confiável e de baixa latência para uma série de funções de aplicativos, desde chatbot até suporte à decisão.

Gateways de IA versus API Gateways

Os gateways de API e gateways de IA são camadas de middleware que gerenciam o tráfego entre clientes e serviços de back-end, mas diferem consideravelmente em finalidade, recursos e os tipos de carga de trabalho que eles gerenciam.

Os API Gateways tradicionais são ferramentas de gerenciamento que atuam como um único ponto de entrada para gerenciar e proteger o tráfego de API tradicional. Elas habilitam recursos transversais vitais, como gerenciamento de tráfego, registro, aplicação de segurança e controle de versão, tornando as APIs mais fáceis de gerenciar e escalar.

Os gateways de API encaminham solicitações de dados e lidam com todos os processos de autenticação, autorização, limitação de taxa, armazenamento em cache, balanceamento de carga, gerenciamento de prompt e segurança básica para APIs padrão da web ou de microsserviço. Eles também abstraem as responsabilidades de integração de serviços, para que os desenvolvedores possam expor APIs e microsserviços sem terem que gerenciar a rede subjacente ou a infraestrutura de segurança.

Os gateways de IA são, essencialmente, gateways de API especializados para modelos de IA e serviços. Eles gerenciam fluxos de solicitações de IA e orquestram interações de serviços de IA (como tentar novamente e fallbacks de modelos). Eles proporcionam uma camada de controle projetada especificamente para cargas de trabalho de IA e interações com LLMs, IA generativa (gen IA), agentes de IA e outros sistemas de IA.

Além das funções básicas de roteamento e segurança, os gateways de IA oferecem funcionalidades avançadas, como inspeção semântica de prompts e respostas, manipulação de tráfego multimodal (texto, voz, imagens), ajustes de políticas dinâmicas e serviços de gerenciamento de custos e mascaramento de dados (para conformidade com a privacidade).

Muitos ambientes de computação modernos usam gateways de API e IA. No entanto, ao contrário dos API Gateways, os gateways de IA são criados especificamente para lidar com as necessidades exclusivas de gerenciamento de dados, segurança, observabilidade e controle de custos de aplicação, fluxo de trabalho e ambientes orientados por IA.

AI Academy

Do piloto à produção: gerando ROI com IA generativa

Saiba como a sua organização pode aproveitar o poder das soluções orientadas por IA em escala para reinventar e transformar seus negócios de maneiras que realmente façam diferença.

Modelos de implementação de gateways de IA

Os modelos de implementação referem-se às várias maneiras pelas quais os gateways de IA gerenciam modelos de IA e serviços de IA em diferentes configurações de infraestrutura. Afetam onde os gateways de IA são executados e como lidam com o roteamento de tráfego, a segurança, o dimensionamento e a governança para cargas de trabalho de IA.

São exemplos de modelos de implementação:

Implementações globais

Com uma implementação global, o gateway usa a infraestrutura global do provedor de nuvem para encaminhar dinamicamente as solicitações de dados para os data centers ou modelar endpoints com a melhor disponibilidade e a menor latência.

Implementações de zona de dados

Os gateways de IA são implementados em zonas de dados específicas ou áreas geográficas para garantir que o processamento de dados ocorra dentro das fronteiras regionais e esteja em conformidade com as normas locais de residência e privacidade de dados.

Implementações provisionadas

Os gateways são executados com capacidade de processamento reservada, permitindo alto rendimento previsível para solicitações de inferência de modelos de IA. Essa abordagem de implementação é adequada para cargas de trabalho com demanda grande e consistente.

Implementações multinuvem e de vários fornecedores

Os gateways de IA abstraem as complexidades subjacentes de implementação encaminhando, balanceando a carga e transformando as solicitações para o backend de modelo apropriado, permitindo o acesso unificado aos modelos de IA hospedados em diversas nuvens ou por diversos fornecedores.

Implementações de micro-gateway

Gateways de IA pequenos e leves são implantados junto a aplicativos ou serviços específicos, criando um modelo de implantação descentralizado que reduz as etapas de rede e possibilita políticas de personalização por serviço. Os microgateways são frequentemente utilizados em arquiteturas de microsserviços.

Implementações de gateway de duas camadas

Com uma implementação de gateway de duas camadas, um gateway central primário funciona com micro gateways adicionais mais próximos de serviços ou equipes específicas. Essa abordagem melhora a escalabilidade e localiza o tráfego, mas ainda oferece controle de políticas centralizado e observabilidade a partir do gateway principal.

Implementações sidecar

Os gateways de IA são implementados como um proxy secundário junto com os modelos de IA no mesmo contêiner ou pod (em ambientes Kubernetes). As implementações do Sidecar acoplam firmemente os gateways aos serviços de IA para um controle refinado e por serviço sobre roteamento, segurança e monitoramento.

Benefícios dos gateways de IA

O uso de ferramentas e serviços de IA apresenta alguns riscos consideráveis.

As ferramentas de IA dependem muito de APIs para acessar dados de fontes externas, implementar fluxos de trabalho e interagir com aplicações e serviços. E cada integração de API apresenta um possível ponto de entrada para invasores. Como nem sempre seguem padrões previsíveis de uso de API, as funções baseadas em IA podem expor inadvertidamente dados proprietários ou sensíveis e expandir consideravelmente a superfície de ataque.

Na verdade, um único endpoint de API comprometido ou mal configurado pode conceder acesso a vários sistemas de back-end e conjuntos de dados, permitindo que os cibercriminosos migrem lateralmente na arquitetura e aumentem seus privilégios. 

Além disso, a maioria das ferramentas de IA é executada em LLMs (os modelos GPT da OpenAI ou os modelos Claude da Anthropic, por exemplo), de modo que podem herdar vulnerabilidades do provedor do LLM. Se um atacante incorporar instruções maliciosas em prompts ou fontes de dados confiáveis (como arquivos de configuração, documentação ou bilhetes de suporte), a ferramenta poderá, sem saber, executar ações prejudiciais ao processar o prompt.

Os gateways de IA ajudam as equipes de desenvolvimento a lidar com esses riscos e desafios. Eles permitem:

  • Gerenciamento de tráfego de IA simplificado. O gerenciamento centralizado do tráfego de IA reduz a complexidade de lidar com conexões individuais de modelos de IA, simplificando o roteamento de dados, a aplicação de políticas e o monitoramento do uso.
  • Maior eficiência e escalabilidade. Automatizando o gerenciamento de recursos, o balanceamento de carga e os processos de otimização de desempenho, os gateways de IA podem minimizar o downtime e acelerar a implementação e o dimensionamento de aplicativos baseados em IA.
  • Maior segurança. Os gateways de IA implementam funcionalidades de segurança robustas - como gerenciamento de credenciais e controle de acesso baseado em função (RBAC) - para proteger os dados, aumentar a visibilidade e garantir o uso da IA responsável. Eles oferecem uma estrutura coesa de monitoramento, auditoria, detecção de anomalias e rastreabilidade, na qual o uso dos modelos de IA pode ser acompanhado até que o modelo seja desativado.
  • Inovação mais rápida. Os gateways de IA usam ML para aprender com novas tarefas e políticas, possibilitando que se adaptem a novos ambientes e evoluam com o tempo. Eles também oferecem acesso unificado a diversos serviços de IA. Esse acesso ajuda os desenvolvedores a inovar e implementar novos aplicativos de IA com mais rapidez.
  • Integração com DevOps. Os gateways de IA geralmente se integram a pipelines de integração contínua/entrega contínua (CI/CD), apresentando dados de telemetria detalhados que ajudam as equipes de DevOps a automatizar reversões de software e fluxos de trabalho de remediação. Os gateways também distribuem automaticamente o tráfego entre as instâncias dos modelos de IA, para que os modelos possam lidar com cargas de trabalho dinâmicas sem criar atrasos na escalabilidade.

Tendências emergentes em gateways de IA

Os gateways de IA são uma tecnologia mais recente e os desenvolvedores estão encontrando novas maneiras de maximizar sua eficácia.

Por exemplo, para dar suporte a cargas de trabalho sensíveis à latência e localizadas em dados (como aquelas usadas em veículos autônomos e dispositivos de saúde), os desenvolvedores estão cada vez mais optando por implantar gateways de IA na borda da rede. As implementações de edge dependem de ferramentas de IA leves e otimizadas de edge que possibilitam a geração de inferência local, ajudando as equipes a transferir serviços de nuvem para servidores de edge e mantêm a capacidade de resposta do sistema.

O cache semântico está melhorando os gateways de IA, reduzindo a latência, reduzindo os custos e ampliando a capacidade de aplicações impulsionadas por LLM. Diferentemente do cache tradicional, que reutiliza somente respostas anteriores exatas, as ferramentas de cache semântico usam vetores incorporados para entender o significado por trás das consultas. Os vetores incorporados ajudam os gateways de IA a reconhecer e reutilizar respostas para perguntas semanticamente semelhantes (mesmo que sejam formuladas de forma diferente), ajudando-os a evitar chamadas redundantes para APIs de LLM e entregar respostas mais rápidas.

O failover de modelo também está ajudando as equipes a maximizar os benefícios dos gateways de IA. As configurações de failover de modelo criam redundância para que, mesmo que um modelo esteja inoperante ou em execução lenta, o gateway possa continuar a rotear efetivamente as solicitações de IA.

Se os modelos de IA ficarem indisponíveis ou retornarem erros, o gateway de IA pode usar mecanismos de failover para alternar automaticamente o tráfego para um backup. Esse processo ajuda a garantir que um problema com um modelo não prejudique a experiência do usuário final.  

Com a geração aumentada de recuperação (RAG), os gateways de IA disponibilizam uma camada de orquestração que ajuda a conectar os LLMs a fontes de informações externas atuais. Em vez de depender apenas dos dados de treinamento fixos do LLM, o RAG permite que o modelo primeiro recupere o contexto relevante de bases de conhecimento, documentos e bancos de dados externos e, em seguida, aumente o prompt do LLM com esses dados antes de gerar uma resposta. Dessa forma, os gateways de IA com recursos RAG ajudam os modelos a preencher a lacuna entre dados de treinamento estáticos e conhecimento dinâmico e gerar respostas mais precisas e relevantes.

Além disso, os gateways de IA podem ajudar a mitigar os riscos associados à implementação de ferramentas de IA agêntica.

Os agentes de IA usam LLMs, processamento de linguagem natural (NLP) e ML para projetar de forma autônoma seus fluxos de trabalho, executar tarefas e executar processos em nome de usuários e outros sistemas. Elas permitem práticas de desenvolvimento humano-in-the-loop, onde os agentes trabalham ao lado de engenheiros e equipes de DevOps para ajudar os seres humanos a atingir objetivos mais rapidamente. No entanto, a IA agêntica também pode contribuir para a "IA oculta", por meio de ações não autorizadas e possivelmente prejudiciais por parte do agente, e expandir consideravelmente a superfície de ataque para cibercriminosos.

Os gateways de IA podem impor protocolos de segurança, restrições de privacidade de dados e conformidade regulatória em implementações complexas e distribuídas, além de ajudar a controlar processos de acesso, autenticação e autorização de API para agentes de IA. E como os gateways de IA tornam a IA agêntica mais observável, eles também ajudam as empresas a mitigar os problemas da IA oculta e os custos excessivos que a implementação da IA agêntica é capaz de criar.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Tenha acesso completo aos recursos que abrangem o ciclo de vida de desenvolvimento da IA. Produza soluções avançadas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real