Percepat AI sumber terbuka di IBM® Z dan LinuxONE dengan kinerja yang dioptimalkan dan dukungan tepercaya
AI Toolkit untuk IBM® Z dan LinuxONE adalah keluarga kerangka kerja AI sumber terbuka yang didukung dan dioptimalkan untuk prosesor Telum. Adopsi AI dengan kontainer bersertifikat, akselerator terintegrasi, dan dukungan pakar. Kerangka kerja ini menggunakan akselerasi AI on-chip di z16, LinuxONE 4, z17 , dan LinuxONE 5.
Menerapkan AI sumber terbuka dengan dukungan IBM® Elite dan kontainer yang telah diverifikasi oleh IBM® untuk kepatuhan, keamanan, dan kepercayaan terhadap perangkat lunak yang tidak dijamin.
IBM® z17’s Telum II, akselerator AI on-chip, menyediakan kinerja inferensi yang setara dengan server x86 13-core dalam sistem yang sama yang mengelola beban kerja pemrosesan transaksi online (OLTP).1
IBM® z17 dan LinuxONE 5 mengaktifkan AI2 yang dioptimalkan INT8, mendukung penilaian prediktif beberapa model, sekaligus memberikan hingga 450 miliar inferensi harian dengan waktu respons kurang dari 1 ms. Alat-alat ini mengelola hasil karena mereka menggunakan model pembelajaran mendalam untuk deteksi penipuan kartu kredit.3
Menerapkan ML, DL, dan model bahasa besar (LLMs) dengan kecepatan inferensi hingga 3,5 kali lebih cepat untuk prediksi.4 Integrasikan dengan lancar menggunakan PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX), dan banyak lagi.
Kembangkan dan menerapkan model machine learning (ML) dengan lancar dengan kerangka kerja TensorFlow yang dioptimalkan dan PyTorch yang disesuaikan untuk IBM® Z. Gunakan akselerasi terintegrasi untuk meningkatkan kinerja inferensi jaringan saraf.
AI Toolkit terdiri atas IBM Elite Support (dalam IBM® Selected Support) dan IBM® Secure Engineering. Alat ini memeriksa dan memindai kerangka kerja AI sumber terbuka dan kontainer bersertifikat IBM® untuk kerentanan keamanan dan memvalidasi kepatuhan terhadap peraturan industri.
Gunakan inferensi AI on-chip untuk menganalisis volume besar data tidak terstruktur di IBM® Z dan LinuxONE. Berikan prediksi yang lebih cepat dan akurat untuk chatbot, content classification, dan pemahaman bahasa.
Dengan hingga 450 miliar inferensi per hari dan respons 99,9 persentil di bawah 1 ms, deteksi dan tindak lanjut terhadap aktivitas penipuan secara instan dengan menggunakan model AI komposit dan akselerasi Telum.5
Identifikasi pola mencurigakan dalam transaksi keuangan dengan menggunakan Snap ML dan Scikit-learn. Dengan kompresi data, enkripsi, dan kecerdasan buatan (AI) yang terintegrasi di platform, tingkatkan respons AML tanpa mengesampingkan kinerja atau keamanan.
1 Penggunaan satu Integrated Accelerator for AI pada beban kerja OLTP di IBM® z17 setara dengan throughput menjalankan inferensi pada server x86 yang dibandingkan dengan 13 inti.
PENAFIAN: Hasil kinerja didasarkan pada pengujian internal IBM® yang dijalankan pada IBM® Systems Hardware dengan tipe mesin 9175. Aplikasi OLTP dan PostgreSQL diterapkan pada IBM® Systems Hardware. Pengaturan AI ensemble Deteksi Penipuan Kartu Kredit (CCFD) terdiri atas dua model (LSTM, TabFormer). Pada IBM® Systems Hardware, aplikasi OLTP dijalankan secara lokal menggunakan jar yang dikompilasi IBM® Z Deep Learning Compiler (zDLC) dan IBM® Z Accelerated for NVIDIA Triton Inference Server. Operasi inferensi AI diproses pada IFL dan Integrated Accelerator for AI. Solusi ini dibandingkan dengan skenario lain, di mana aplikasi OLTP juga dijalankan secara lokal, tetapi operasi inferensi AI diproses dari jarak jauh di server x86 yang menjalankan NVIDIA Triton Inference Server dengan backend waktu proses OpenVINO di CPU (dengan AMX). Setiap skenario dijalankan dari Apache JMeter 5.6.3 dengan 64 pengguna paralel. Konfigurasi IBM® Systems Hardware: 1 LPAR yang menjalankan Ubuntu 24.04 dengan 7 IFL (SMT) khusus, memori 256 GB, dan penyimpanan IBM® FlashSystem 9500. Adaptor Jaringan khusus untuk NETH di Linux. Konfigurasi server x86: 1 server x86 yang menjalankan Ubuntu 24.04 dengan 28 CPU Emerald Rapids Intel Xeon Gold @ 2,20 GHz dengan hyper-threading aktif, memori 1 TB, SSD lokal, UEFI dengan profil kinerja maksimum diaktifkan, Kontrol P-State CPU dan C-State dinonaktifkan. Hasil dapat bervariasi.
2 Prosesor IBM® z17 Telum II mendukung kuantisasi INT8, yang dirancang untuk mengurangi latensi inferensi jika dibandingkan dengan model non-kuantisasi.
PENAFIAN: Dukungan kuantisasi INT8 dalam prosesor IBM® z17 Telum II mengurangi dan menyimpan bobot dan aktivasi dari nomor float point 32-bit ke bilangan bulat 8-bit. Pengurangan presisi ini memungkinkan perhitungan yang lebih cepat yang dapat menghasilkan waktu inferensi yang lebih rendah dibandingkan dengan model non-kuantisasi
3,5 Dengan IBM® z17, proses hingga 450 miliar operasi inferensi per hari menggunakan beberapa model AI untuk deteksi penipuan kartu kredit.
PENAFIAN: Hasil kinerja diekstrapolasi dari pengujian internal IBM® yang berjalan pada IBM® IBM Systems Hardware dengan tipe mesin 9175. Tolok ukur dieksekusi dengan 64 utas yang melakukan operasi inferensi lokal menggunakan model deteksi penipuan kartu kredit sintetis (CCFD) berdasarkan model LSTM dan TabFormer. Tolok ukur tersebut memanfaatkan Integrated Accelerator for AI AI menggunakan IBM® Z Deep Learning Compiler (zDLC) dan IBM® Z Accelerated for PyTorch. Pengaturannya terdiri dari 64 thread yang disematkan dalam kelompok 8 pada setiap chip (1 untuk zDLC, 7 untuk PyTorch). Model TabFormer (transformator tabular) mengevaluasi 0,035% permintaan inferensi. Ukuran batch sebanyak 160 digunakan untuk model berbasis LSTM. Konfigurasi IBM® Systems Hardware: 1 LPAR menjalankan Ubuntu 24.04 dengan 45 IFL (SMT), memori 128 GB. Hasil dapat bervariasi.
4 PENAFIAN: Hasil kinerja didasarkan pada uji internal IBM® yang melakukan inferensi menggunakan model Random Forest dengan Snap ML v1.12.0 backend yang menggunakan Integrated Accelerator for AI pada Tipe Mesin IBM® 3931 versus backend NVIDIA Forest Inference Library pada server x86 yang dibandingkan. Model ini dilatih menggunakan kumpulan data berikut dan NVIDIA Triton™ digunakan pada kedua platform sebagai kerangka kerja penyajian model. Beban kerja didorong melalui alat benchmarking http Hey. Konfigurasi IBM Machine Type 3931: Ubuntu 22.04 dalam LPAR dengan 6 IFL khusus, memori 256 GB. Konfigurasi x86: Ubuntu 22.04 pada 6 Ice Lake Intel Xeon Gold CPU @ 2.80GHz dengan hyper-threading diaktifkan, memori 1 TB.