Escale e otimize a inferência de IA generativa usando o IBM® AI Optimizer for Z 2.1

Fornece recursos que otimizam a inferência de IA generativa em todas as infraestruturas por meio de recursos de cache e monitoramento de valores-chave.

Ilustração digital com fundo preto e ícones de stacks de dados e dashboard

O AI Optimizer for Z 2.1 foi projetado para atender modelos de IA e executar otimização de inferência no acelerador IBM Spyre. Ele otimiza a inferência de IA generativa em infraestruturas por meio de recursos de cache e monitoramento de chave-valor (KV) configurados para clientes IBM Z.

Por que o AI Optimizer for Z 2.1

Para empresas que executam cargas de trabalho no IBM Z, o caminho para operacionalizar a IA não é sobre se podem executá-la; trata-se de quão eficiente e seguramente ela pode ser integrada em ambientes existentes.

As cargas de trabalho de IA estão se tornando maiores e consumindo mais recursos, especialmente com IA generativa e aplicações baseadas em LLM. No Z, os clientes devem equilibrar:

  • Cargas de trabalho sensíveis à latência que não podem sair da plataforma.
  • Requisitos de conformidade e residência de dados que restringem onde a inferência é executada.
  • Aumento dos custos de computação e energia gerados pela implementação ineficiente de modelos.

O AI Optimizer for Z 2.1 foi desenvolvido para se alinhar a essas realidades, permitindo que as empresas decidam de forma menos manual e automatizem de forma mais inteligente a colocação de inferência e a otimização.

Principais recursos do AI Optimizer Z 2.1

Essa versão introduz vários aprimoramentos técnicos que melhoram o desempenho e a eficiência:

1. Monitoramento e visualização em tempo real para total transparência operacional

Usando os dashboards Grafana e Prometheus, o AI Optimizer for Z 2.1 fornece observabilidade profunda e insights quase em tempo real sobre métricas de desempenho de inferência, utilização de hardware e Spyre, padrões de uso de modelos e identifica gargalos e anomalias no serviço de modelos. Por exemplo, os usuários podem interpretar dados complexos intuitivamente por meio de um dashboard, evitar superprovisionamento e planejar decisões futuras sobre infraestrutura e considerações orçamentárias usando essas métricas.

2. Cache em vários níveis para respostas mais rápidas, maior rendimento

Com um plano de entrega em estágios, podem ser habilitados dois níveis de cache que reutilizam cálculos realizados anteriormente para sequências comuns de token em diferentes solicitações de inferência. O nível 1 é onde o cache do KV pode ser feito com um LLM implementado em várias unidades de hardware. As solicitações de inferência com texto em cache serão aceleradas e a utilização do hardware poderá ser otimizada. E o Nível 2 é onde o cache pode ser compartilhado entre várias implementações de LLM, acelerando a inferência, reduzindo o tempo para o primeiro token e aumentando o rendimento.

3. Otimização de inferência para modelos em execução no Spyre, acelerada por design

Os LLMs que são executados no Spyre podem ser detectados automaticamente pelo AI Optimizer for Z e registrados para otimização de inferência. Os usuários podem criar planos de roteamento personalizados, pois o roteador inteligente integrado considera a disponibilidade, o uso e o desempenho. LLMs que atendem a aplicações ou propósitos semelhantes podem ser agrupados adicionando-se tags a eles. Os usuários também podem configurar suas próprias tags seguindo os padrões de APIs da OpenAI.

4. Registro de modelo externo: unifique suas operações de IA híbrida

LLMs externos que são implementados em outras infraestruturas fora do IBM Z e IBM LinuxONE podem ser registrados no AI Optimizer for Z. Eles podem ser marcados e agrupados com LLMs locais em execução no Spyre para garantir o agrupamento e a otimização de casos de uso. Dependendo da implementação do LLM, o monitoramento de LLMs externos pode ser integrado ao painel de monitoramento entre plataformas para fornecer uma visão geral completa de IA generativa.

Dependendo da necessidade empresarial de um caso de uso de IA generativa, podem ser necessários vários modelos para atingir um determinado objetivo. Portanto, o AI Optimizer for Z permite o registro de modelos externos em execução fora do IBM Z e do IBM LinuxONE para unificar os endpoints de inferência. LLMs externos e LLMs locais podem ser agrupados por meio de tags personalizadas que podem ser usadas em solicitações de inferência para atender às necessidades comerciais.

AI Optimizer on Z e watsonx Assistant for Z on Spyre

Quando o AI Optimizer for Z encontra o watsonx Assistant for Z no acelerador Spyre da IBM, as empresas obtêm o melhor dos dois mundos: inteligência e desempenho em perfeita harmonia.

O AI Optimizer garante que cada consulta, inferência e chamada de modelo seja roteada, armazenada em cache e dimensionada para máxima eficiência, enquanto o watsonx Assistant for Z proporciona uma interação natural e conversacional com clientes e funcionários.

Executados na arquitetura de alto desempenho e eficiente em termos de energia do Spyre, os dois juntos permitem respostas mais rápidas, menor latência e visibilidade de ponta a ponta, transformando as interações com os clientes em experiências contínuas, impulsionadas por IA, mais inteligentes, rápidas e construídas para a escala empresarial.

Saiba mais sobre o IBM AI Optimizer for Z

Participe do nosso próximo webinar para saber mais

Minaz Merali

VP IBM Z Data and AI

IBM

Mohamed Elmougi

Senior Product Manager - IBM Z Data and AI

IBM