Mengoptimalkan GPU untuk gen AI

Menghemat sumber daya penting dengan IBM Turbonomic
Dua orang, duduk di bangku di depan tanda "I love AI"
Memaksimalkan GPU permintaan tinggi untuk efisiensi dan kinerja

Kecerdasan buatan telah mencapai tonggak penting, di mana melatih model bahasa besar (LLM) adalah salah satu tugas yang paling menuntut komputasi. Komputasi berkinerja tinggi sangat penting untuk AI generatif (gen AI) dan pengoptimalan beban kerja LLM, dan Graphics Processing Units (GPU) bisa jadi mahal dan langka. GPU adalah chip komputer khusus yang dirancang untuk menangani kalkulasi matematika yang rumit dan pemrosesan paralel, sehingga ideal untuk komputasi kompleks yang diperlukan dalam pelatihan dan inferensi untuk model pembelajaran mendalam. Akibatnya, GPU sangat diminati, dan mengoptimalkan pemanfaatannya sangat penting untuk kesuksesan AI.

Tim IBM Big model AI (BAM), yang mendukung lingkungan penelitian dan pengembangan utama bagi tim teknik untuk menguji dan menyempurnakan proyek-proyek gen AI mereka, melihat adanya peluang untuk perbaikan. Dengan semakin banyaknya proyek yang melewati tahap pengujian, tim menyadari pentingnya menggunakan setiap contoh secara optimal untuk menghindari pemborosan sumber daya.

5,3x peningkatan sumber daya GPU yang tidak digunakan 2X throughput dicapai tanpa menurunkan kinerja latensi
Memungkinkan Turbonomic untuk menskalakan server inferensi LLM kami telah memungkinkan saya untuk menghabiskan lebih sedikit waktu untuk memantau kinerja.
Tom Morris Pimpinan Infrastruktur dan Operasi untuk Riset Pemberdayaan Platform AI IBM IBM
Mengubah manajemen GPU: dari kekacauan ke kontrol

Untuk mengoptimalkan sumber daya GPU dan mengelola instance LLM Kubernetes mereka, tim IBM BAM menerapkan IBM Turbonomic, sebuah alat perangkat lunak manajemen sumber daya aplikasi yang canggih. Dengan menggunakan data real-time, Turbonomic menghasilkan rekomendasi yang didorong oleh AI untuk tindakan otomatis guna mengoptimalkan pemanfaatan sumber daya dan efisiensi. Dengan mengidentifikasi strategi alokasi sumber daya yang optimal, solusi ini menghasilkan saran khusus yang dapat dikonfigurasikan oleh tim untuk dijalankan secara otomatis, sehingga memungkinkan pengoptimalan sumber daya yang didorong oleh AI.

Sebagai perangkat lunak internal IBM yang secara eksplisit dirancang untuk mengoptimalkan hybrid cloud management, termasuk aplikasi kontainer, virtual machines, dan cloud publik, IBM Turbonomic menyediakan integrasi dalam infrastruktur yang ada.

Tom Morris, Peneliti Platform AI, merangkum: "Mengaktifkan Turbonomic untuk menskalakan server inferensi LLM kami telah memungkinkan saya menghabiskan lebih sedikit waktu untuk memantau kinerja."

SEBELUM

dasbor turbonomic yang menampilkan beberapa data yang menyoroti bagian yang menampilkan 3 GPU bebas

SESUDAH

Grafik garis membandingkan penggunaan GPU gratis dari waktu ke waktu, menyoroti bagian yang menampilkan 17 GPU bebas
Kinerja yang lebih baik, mengurangi biaya: hasil alokasi sumber daya GPU yang efisien

Dengan Turbonomic, tim IBM BAM mampu menciptakan infrastruktur yang dapat diskalakan dan tangkas yang dapat beradaptasi dengan tuntutan bisnis mereka yang terus berkembang, mendukung layanan LLM mereka dan menjalankan lebih dari 100 GPU NVIDIA A100.

Dengan mengurangi jumlah instance yang terlalu banyak, tim menunjukkan kemampuan untuk meningkatkan sumber daya GPU yang tidak aktif dari 3 menjadi 16 (5,3 kali lipat), agar sumber daya tersebut dapat menangani beban kerja tambahan.

Hasil meliputi:

  1. Alokasi sumber daya
    Dengan solusi otomatis, penskalaan dinamis menjadi hal yang biasa, menghasilkan pemanfaatan optimal dari GPU yang tersedia sesuai dengan kebutuhan yang berbeda-beda.

  2. Efisiensi biaya
    Menskalakan layanan LLM sesuai permintaan memungkinkan pembagian waktu GPU, mengoptimalkan jumlah total GPU yang diperlukan. Sekarang, dengan penskalaan dan berbagi, tim IBM BAM menunjukkan 13 GPU yang lebih sedikit akan diperlukan dalam lingkungan otomatisasi penuh.

  3. Efisiensi tenaga kerja
    Penskalaan otomatis server inferensi LLM memungkinkan tim IBM BAM menghabiskan lebih sedikit waktu memantau kinerja.

  4. Skalabilitas dan kinerja
    Setelah mengotomatiskan penskalaan layanan LLM sepenuhnya, sumber daya GPU yang awalnya disediakan berlebihan dibebaskan untuk dibagi dengan beban kerja lain berdasarkan permintaan. Peningkatan throughput memberikan kesempatan untuk meningkatkan kinerja dengan mengatasi masalah latensi.

Dengan menerapkan kemampuan otomatisasi Turbonomic, tim IBM BAM berhasil meningkatkan skala dan mengoptimalkan layanan LLM. Peningkatan ini memposisikan tim untuk mengalokasikan kembali waktu mereka untuk proyek-proyek strategis.

3 Grafik linier yang menampilkan peningkatan beban dari waktu ke waktu dan penurunan waktu antrian dan waktu per hasil
Logo IBM
Tentang IBM Big AI Models

Tim IBM Big AI Models (BAM) adalah sekelompok peneliti dan teknisi dalam IBM Research yang berfokus pada pengembangan dan penerapan model AI skala besar. Model-model ini dirancang untuk memproses dan menganalisis data dalam jumlah besar, yang memungkinkan aplikasi seperti pemrosesan bahasa alami, visi komputer, dan analisis prediktif.

Komponen solusi IBM Turbonomic
Transformasikan bisnis Anda dengan keputusan berbasis data

Optimalkan kinerja dan efisiensi dengan manajemen sumber daya otomatis IBM Turbonomic yang didorong oleh AI

Mulai otomatisasi dengan Turbonomic Lihat lebih banyak studi kasus
Hukum

© Hak Cipta IBM Corporation 2024. IBM, logo IBM, Turbonomic, dan IBM Research adalah merek dagang atau merek dagang terdaftar dari IBM Corp., di AS dan/atau negara lain. Ini adalah dokumen terbaru pada tanggal awal publikasi dan dapat diubah oleh IBM kapan saja. Tidak semua penawaran tersedia di setiap negara tempat IBM beroperasi.

Contoh klien disajikan sebagai ilustrasi tentang cara klien tersebut menggunakan produk IBM dan hasil yang mungkin telah mereka capai. Kinerja aktual, biaya, penghematan atau hasil lainnya di lingkungan operasi lain mungkin berbeda.