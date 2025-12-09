Inteligência artificial Automação de TI

Liberando a inferência de IA generativa em escala empresarial: anúncio da disponibilidade para o público geral do IBM® IA Optimizer for Z 2.1

Acelere a IA generativa no IBM® Z e otimize a inferência para obter o máximo de desempenho, eficiência e segurança.

Publicado 09/12/2025
By Minaz Merali and Mohamed Elmougi

O IBM IA Optimizer for Z 2.1 já está disponível para o público em geral, oferecendo inferência de IA generativa de alto desempenho e baixa latência no IBM Z com tecnologia do IBM SpyreTM Accelerator. Este lançamento representa o primeiro passo em um roteiro de entrega contínua, com recursos adicionais e otimizações planejadas para implementação nos próximos trimestres.

Otimização das cargas de trabalho da IA generativa para um maior desempenho

O AI Optimizer for Z aproveita o poder do IBM Spyre™ Accelerator (Spyre) para fornecer inferência de alto desempenho e baixa latência para os modelos de IA. Ao combinar o Spyre com recursos avançados, como armazenamento em cache de KV e monitoramento em tempo real, ela permite que as empresas otimizem as cargas de trabalho de IA generativa em todas as infraestruturas com eficiência, escalabilidade e segurança incomparáveis.

Os principais recursos do IA Optimizer for Z 2.1 incluem:

1. Monitoramento e observabilidade em tempo real:

O AI Optimizer for Z oferece monitoramento avançado em tempo real para cargas de trabalho de IA generativa usando o Prometheus para coleta de métricas e o Grafana para visualização intuitiva. Ele monitora as principais métricas, como a taxa de transferência do token, a latência por solicitação, a taxa de acertos do cache, o tempo até o primeiro token e a utilização da memória, juntamente com um plano para incluir métricas de uso de hardware, como a utilização da GPU/acelerador.

O AI Optimizer pode se integrar ao coletor do OpenTelemetry (OTel) quando configurado com receptores Prometheus. Isso permite a ingestão perfeita de telemetria e a interoperabilidade para uma observabilidade unificada em ambientes híbridos. Esses insights permitem que as organizações tomem decisões embasadas sobre planejamento de capacidade, roteamento de carga de trabalho, monitoramento de desempenho e otimização de infraestrutura, ajudando a evitar o provisionamento excessivo, reduzir custos e melhorar o desempenho geral.

2. Cache multinível:

Em um plano de entrega em estágios, o AI Optimizer for Z introduzirá o cache multinível para acelerar a inferência da IA generativa.

No primeiro nível, o cache KV reutiliza sequências de token calculadas anteriormente em uma única implementação de grandes modelos de linguagem (LLM), reduzindo o tempo para o primeiro token e melhorando a taxa de transferência.

No segundo nível, o cache estendido compartilha esses cálculos em várias implementações de LLM, permitindo uma eficiência ainda maior para cargas de trabalho em grande escala. Esse recurso se traduz em um valor comercial significativo, reduzindo os custos de infraestrutura, melhorando os tempos de resposta das aplicações voltadas para o cliente e permitindo que as empresas escalem os serviços de IA sem provisionamento excessivo de recursos.

3. Otimização de inferência:

O AI Optimizer for Z possibilita a marcação flexível de LLMs, permitindo que os usuários agrupem modelos por aplicação, caso de uso de negócios ou requisitos de desempenho. Essas marcações podem ser aplicadas a solicitações de inferência, garantindo um roteamento inteligente e a utilização otimizada de recursos em múltiplas implementações.

Além disso, a solução oferece suporte ao registro de LLMs externos executados fora do IBM Z ou LinuxONE, integrando-os ao mesmo framework de marcação e roteamento para uma otimização unificada. Esse recurso oferece às empresas maior controle e agilidade, possibilitando um desempenho consistente e eficiência de custos em ambientes de IA híbridos.

Por que isso é importante: IA empresarial sem comprometimento

As organizações que operam no IBM Z enfrentam restrições exclusivas, como residência de dados, exigências de privacidade, requisitos de baixa latência e confiabilidade de missão crítica. O AI Optimizer for Z 2.1 permite a adoção da IA generativa sem exigir movimentação de carga de trabalho ou riscos arquitetônicos, fornecendo valor imediato em setores como o bancário, de seguros, de manufatura e o setor público. Com uma abordagem de entrega contínua, as empresas podem esperar melhorias constantes que fortalecem ainda mais o desempenho, a escalabilidade e a segurança

Um caminho planejado e estratégico para o futuro

A disponibilidade geral do IA Optimizer for Z 2.1 marca o início de um roteiro mais amplo. Os principais recursos de inferência e observabilidade já estão disponíveis, e otimizações adicionais serão fornecidas por meio de lançamentos incrementais ao longo dos próximos trimestres, garantindo que os clientes possam se beneficiar continuamente da inovação sem interrupções.

Saiba mais sobre o AI Optimizer for Z 2.1

Minaz Merali

VP IBM Z Data and AI

IBM

Mohamed Elmougi

Senior Product Manager - IBM Z Data and AI

IBM