Escale e otimize a inferência de IA generativa usando o IBM® AI Optimizer for Z 2.1
Fornece recursos que otimizam a inferência de IA generativa em todas as infraestruturas por meio de recursos de cache e monitoramento de valores-chave.
Fornece recursos que otimizam a inferência de IA generativa em todas as infraestruturas por meio de recursos de cache e monitoramento de valores-chave.
O AI Optimizer for Z 2.1 foi projetado para atender modelos de IA e executar otimização de inferência no acelerador IBM Spyre. Ele otimiza a inferência de IA generativa em infraestruturas por meio de recursos de cache e monitoramento de chave-valor (KV) configurados para clientes IBM Z.
Para empresas que executam cargas de trabalho no IBM Z, o caminho para operacionalizar a IA não é sobre se podem executá-la; trata-se de quão eficiente e seguramente ela pode ser integrada em ambientes existentes.
As cargas de trabalho de IA estão se tornando maiores e consumindo mais recursos, especialmente com IA generativa e aplicações baseadas em LLM. No Z, os clientes devem equilibrar:
O AI Optimizer for Z 2.1 foi desenvolvido para se alinhar a essas realidades, permitindo que as empresas decidam de forma menos manual e automatizem de forma mais inteligente a colocação de inferência e a otimização.
Essa versão introduz vários aprimoramentos técnicos que melhoram o desempenho e a eficiência:
Usando os dashboards Grafana e Prometheus, o AI Optimizer for Z 2.1 fornece observabilidade profunda e insights quase em tempo real sobre métricas de desempenho de inferência, utilização de hardware e Spyre, padrões de uso de modelos e identifica gargalos e anomalias no serviço de modelos. Por exemplo, os usuários podem interpretar dados complexos intuitivamente por meio de um dashboard, evitar superprovisionamento e planejar decisões futuras sobre infraestrutura e considerações orçamentárias usando essas métricas.
Com um plano de entrega em estágios, podem ser habilitados dois níveis de cache que reutilizam cálculos realizados anteriormente para sequências comuns de token em diferentes solicitações de inferência. O nível 1 é onde o cache do KV pode ser feito com um LLM implementado em várias unidades de hardware. As solicitações de inferência com texto em cache serão aceleradas e a utilização do hardware poderá ser otimizada. E o Nível 2 é onde o cache pode ser compartilhado entre várias implementações de LLM, acelerando a inferência, reduzindo o tempo para o primeiro token e aumentando o rendimento.
Os LLMs que são executados no Spyre podem ser detectados automaticamente pelo AI Optimizer for Z e registrados para otimização de inferência. Os usuários podem criar planos de roteamento personalizados, pois o roteador inteligente integrado considera a disponibilidade, o uso e o desempenho. LLMs que atendem a aplicações ou propósitos semelhantes podem ser agrupados adicionando-se tags a eles. Os usuários também podem configurar suas próprias tags seguindo os padrões de APIs da OpenAI.
LLMs externos que são implementados em outras infraestruturas fora do IBM Z e IBM LinuxONE podem ser registrados no AI Optimizer for Z. Eles podem ser marcados e agrupados com LLMs locais em execução no Spyre para garantir o agrupamento e a otimização de casos de uso. Dependendo da implementação do LLM, o monitoramento de LLMs externos pode ser integrado ao painel de monitoramento entre plataformas para fornecer uma visão geral completa de IA generativa.
Dependendo da necessidade empresarial de um caso de uso de IA generativa, podem ser necessários vários modelos para atingir um determinado objetivo. Portanto, o AI Optimizer for Z permite o registro de modelos externos em execução fora do IBM Z e do IBM LinuxONE para unificar os endpoints de inferência. LLMs externos e LLMs locais podem ser agrupados por meio de tags personalizadas que podem ser usadas em solicitações de inferência para atender às necessidades comerciais.
Quando o AI Optimizer for Z encontra o watsonx Assistant for Z no acelerador Spyre da IBM, as empresas obtêm o melhor dos dois mundos: inteligência e desempenho em perfeita harmonia.
O AI Optimizer garante que cada consulta, inferência e chamada de modelo seja roteada, armazenada em cache e dimensionada para máxima eficiência, enquanto o watsonx Assistant for Z proporciona uma interação natural e conversacional com clientes e funcionários.
Executados na arquitetura de alto desempenho e eficiente em termos de energia do Spyre, os dois juntos permitem respostas mais rápidas, menor latência e visibilidade de ponta a ponta, transformando as interações com os clientes em experiências contínuas, impulsionadas por IA, mais inteligentes, rápidas e construídas para a escala empresarial.