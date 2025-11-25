Skalakan dan optimalkan inferensi gen AI menggunakan IBM AI Optimizer untuk Z 2.1
Memberikan kemampuan yang mengoptimalkan inferensi gen AI di seluruh infrastruktur melalui kemampuan caching dan pemantauan nilai kunci.
AI Optimizer untuk Z 2.1 dirancang untuk melayani model AI dan melakukan pengoptimalan inferensi pada akselerator IBM Spyre. Ini mengoptimalkan inferensi gen AI di seluruh infrastruktur melalui kemampuan caching dan pemantauan nilai kunci (KV) yang dikonfigurasi untuk klien IBM Z.
Untuk perusahaan yang menjalankan beban kerja di IBM Z, jalan untuk mengoperasionalkan AI bukan tentang apakah mereka dapat menjalankannya; ini tentang seberapa efisien dan aman AI dapat diintegrasikan ke dalam lingkungan yang ada.
Beban kerja AI menjadi lebih besar dan lebih padat sumber daya, terutama dengan aplikasi berbasis AI generatif dan LLM. Pada IBM Z, klien harus menyeimbangkan:
AI Optimizer untuk Z 2.1 dibangun untuk menyelaraskan dengan realitas ini, memungkinkan perusahaan untuk memutuskan lebih sedikit secara manual dan mengotomatiskan lebih cerdas dalam hal penempatan dan pengoptimalan inferensi.
Rilis ini memperkenalkan beberapa peningkatan teknis yang meningkatkan kinerja dan efisiensi:
Menggunakan dasbor Grafana dan Prometheus, AI Optimizer untuk Z 2.1 memberikan pengamatan mendalam dan insight nyaris seketika ke dalam metrik kinerja inferensi, perangkat keras, dan penggunaan Spyre, pola penggunaan model, dan mengidentifikasi hambatan dan anomali dalam penyajian model. Misalnya, pengguna dapat menafsirkan data kompleks secara intuitif melalui salah satu dasbor, menghindari penyediaan berlebihan dan merencanakan keputusan masa depan tentang pertimbangan infrastruktur dan anggaran menggunakan metrik ini.
Dengan rencana pengiriman bertahap, dua tingkat caching yang menggunakan ulang komputasi yang telah dikomputasi sebelumnya untuk urutan token umum di berbagai permintaan inferensi, dapat diaktifkan. Level 1 adalah tempat KV caching dapat dilakukan dengan satu LLM yang diterapkan pada beberapa unit perangkat keras. Permintaan inferensi yang memiliki teks cache akan dipercepat dan pemanfaatan perangkat keras dapat dioptimalkan. Dan Level 2 adalah tempat caching dapat dibagikan di beberapa penerapan LLM, mempercepat inferensi, mengurangi waktu hingga token pertama dan meningkatkan throughput.
LLM yang berjalan di Spyre dapat secara otomatis dideteksi oleh AI Optimizer untuk Z dan terdaftar untuk pengoptimalan inferensi. Pengguna dapat membuat rencana perutean khusus karena router cerdas bawaan mempertimbangkan ketersediaan, penggunaan, dan kinerja. LLM yang melayani aplikasi atau tujuan serupa dapat dikelompokkan bersama dengan menambahkan tag ke dalamnya. Pengguna juga dapat mengonfigurasi tag mereka sendiri mengikuti standar OpenAI API.
LLM eksternal yang diterapkan pada infrastruktur lain di luar IBM Z dan IBM LinuxONE dapat didaftarkan dengan AI Optimizer for Z. Ini dapat ditandai dan dikelompokkan dengan LLM lokal yang berjalan di Spyre untuk memastikan pengelompokan contoh penggunaan dan pengoptimalan. Bergantung pada penerapan LLM, pemantauan LLM eksternal dapat diintegrasikan dalam dasbor pemantauan lintas platform untuk memberikan gambaran umum gen AI yang lengkap.
Bergantung pada kebutuhan bisnis untuk contoh penggunaan gen AI, beberapa model dapat diperlukan untuk mencapai tujuan tertentu. Oleh karena itu, AI Optimizer for Z memungkinkan pendaftaran model eksternal yang berjalan di luar IBM Z dan IBM LinuxONE untuk menyatukan titik akhir inferensi. LLM eksternal dan LLM Lokal dapat dikelompokkan bersama melalui tag khusus yang dapat digunakan dalam menyimpulkan permintaan untuk melayani kebutuhan bisnis.
Ketika AI Optimizer for Z bertemu watsonx Assistant for Z pada akselerator Spyre IBM, perusahaan mendapatkan yang terbaik dari kedua dunia: kecerdasan dan kinerja dalam harmoni yang sempurna.
AI Optimizer memastikan setiap kueri, inferensi, dan panggilan model dirutekan, di-cache, dan diskalakan untuk efisiensi maksimum, sementara watsonx Assistant for Z memberikan keterlibatan percakapan alami dengan pelanggan dan karyawan.
Berjalan pada arsitektur Spyre yang berkinerja tinggi dan hemat energi, keduanya bersama-sama memungkinkan respons yang lebih cepat, latensi yang lebih rendah, dan visibilitas ujung ke ujung, mengubah interaksi pelanggan menjadi pengalaman yang lancar dan didukung AI yang lebih cerdas, lebih cepat, dan dibangun untuk skala perusahaan.
