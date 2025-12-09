Membuka inferensi gen AI skala perusahaan: Mengumumkan GA IBM® AI Optimizer untuk Z 2.1
Percepat gen AI di IBM® Z dan optimalkan inferensi untuk kinerja, efisiensi, dan keamanan maksimum.
IBM® AI Optimizer untuk Z 2.1 sekarang tersedia secara umum, memberikan inferensi AI gen latensi rendah berkinerja tinggi pada IBM® Z yang didukung oleh IBM® Spyre TM Accelerator. Rilis ini merupakan langkah pertama dalam peta jalan pengiriman berkelanjutan, dengan kemampuan dan optimasi tambahan yang direncanakan untuk diluncurkan selama beberapa kuartal mendatang.
AI Optimizer for Z menggunakan kekuatan IBM® Spyre Accelerator (Spyre) untuk menghadirkan kinerja tinggi, latensi rendah inferensi untuk model AI. Dengan menggabungkan Spyre dengan kemampuan canggih seperti KV caching dan pemantauan waktu nyata, ini memungkinkan perusahaan untuk mengoptimalkan beban kerja gen AI di seluruh infrastruktur dengan efisiensi, skalabilitas, dan keamanan yang tak tertandingi.
Kemampuan utama AI Optimizer for Z 2.1 meliputi:
AI Optimizer for Z menyediakan pemantauan real-time canggih untuk beban kerja gen AI menggunakan Prometheus untuk pengumpulan metrik dan Grafana untuk visualisasi intuitif. Ini melacak metrik utama seperti throughput token, latensi per permintaan, rasio hit cache, time-to-first-token pertama dan pemanfaatan memori, bersama dengan rencana untuk memasukkan metrik penggunaan perangkat keras seperti pemanfaatan GPU/akselerator.
AI Optimizer dapat berintegrasi dengan kolektor OpenTelemetry (OTel) ketika dikonfigurasi dengan penerima Prometheus. Hal ini memungkinkan penyerapan telemetri yang mulus dan interoperabilitas untuk pengamatan terpadu di seluruh lingkungan hybrid. Berbagai insight ini memberdayakan organisasi untuk mengambil keputusan yang tepat terkait perencanaan kapasitas, perutean beban kerja, pemantauan kinerja, dan optimalisasi infrastruktur—sehingga dapat menghindari over-provisioning, menekan biaya, dan meningkatkan kinerja secara keseluruhan.
Dalam rencana pengiriman bertahap, AI Optimizer for Z akan memperkenalkan caching multi-level untuk mempercepat inferensi gen AI.
Pada tingkat pertama, caching KV menggunakan kembali urutan token yang dihitung sebelumnya dalam satu penyebaran Large Language Model (LLM), mengurangi waktu hingga token pertama dan meningkatkan throughput.
Pada tingkat kedua, caching yang diperluas berbagi komputasi ini di beberapa penerapan LLM, memungkinkan efisiensi yang lebih besar untuk beban kerja skala besar. Kemampuan ini memberikan nilai bisnis yang signifikan dengan menurunkan biaya infrastruktur, meningkatkan waktu respons aplikasi yang berhadapan langsung dengan pelanggan, serta memungkinkan perusahaan untuk menskalakan layanan AI tanpa perlu menyediakan sumber daya berlebihan.
AI Optimizer for Z memungkinkan penandaan LLM yang fleksibel, memungkinkan pengguna untuk mengelompokkan model berdasarkan aplikasi, contoh penggunaan bisnis, atau persyaratan kinerja. Tag ini dapat diterapkan pada permintaan inferensi, memastikan perutean cerdas dan pemanfaatan sumber daya yang dioptimalkan di beberapa penerapan.
Selain itu, solusi ini mendukung pendaftaran LLM eksternal yang berjalan di luar IBM® Z atau LinuxONE, mengintegrasikannya ke dalam kerangka kerja yang sama untuk pengoptimalan terpadu. Kemampuan ini memberi perusahaan kontrol dan ketangkasan yang lebih besar, memungkinkan kinerja yang konsisten dan efisiensi biaya di seluruh lingkungan AI hybrid.
Organisasi yang beroperasi di IBM® Z menghadapi kendala unik seperti residensi data, mandat privasi, persyaratan latensi rendah, dan keandalan kritis misi. AI Optimizer for Z 2.1 memungkinkan adopsi GenAI tanpa memerlukan pergerakan beban kerja atau risiko arsitektur, memberikan nilai langsung di seluruh industri seperti perbankan, asuransi, manufaktur, dan sektor publik. Dengan pendekatan pengiriman yang berkelanjutan, perusahaan dapat mengharapkan peningkatan berkelanjutan yang semakin memperkuat kinerja, skalabilitas, dan keamanan
GA dari AI Optimizer for Z 2.1 menandai awal dari peta jalan yang lebih luas. Kemampuan inferensi inti dan observabilitas telah tersedia saat ini, sementara optimalisasi tambahan akan dirilis secara bertahap dalam beberapa kuartal ke depan, sehingga pelanggan dapat terus memperoleh manfaat inovasi tanpa gangguan.