生成AI向けのGPUの最適化

IBM Turbonomicによる重要なリソースの節約

「I love AI」の看板の前のベンチに座る2人
需要の高いGPUを最大限に活用して効率と性能を実現

人工知能(AI)は重要な転換点節目を迎えており、大規模言語モデル(LLM)のトレーニングは、最も計算負荷の高いタスクの1つです。高性能コンピューティングは、生成AIとLLMワークロードの最適化に不可欠です。あり、グラフィックス・プロセッシング・ユニット(GPU)は高価で不足する可能性があります。GPUは、複雑な数学的計算と並列処理を処理するように設計された特殊なコンピューター・チップで、ディープ・ラーニング・モデルのトレーニング学習と推論処理に必要な複雑な計算に最適です。そのため結果、GPUの需要が高まり、AIの成功にはGPUの使用を最適化を有効活用することが重要です。しかしGPUは高価なため、入手困難でした。

エンジニアリング・チームが生成AIプロジェクトをテストおよび改良するための主要な研究開発環境をサポートするIBM® Big AI Models(BAM)チームは、社内のエンジニアリング・チームが生AIプロジェクトを研究・改善するための研究開発環境を支援しており、GPU活用の改善の機会を見出しました。テスト段階を通過するプロジェクトが増えるにつれて、チームはリソースの無駄遣いを避けるため、に各インスタンスを最適に使用することの重要性を認識しました。

5.3x アイドル状態のGPUリソースの増加 2倍 レイテンシー・パフォーマンスを低下させることなくスループットを達成
TurbonomicをLLM推論サーバーのスケールアップおよびスケールダウンに活用することで、パフォーマンスの監視に費やす時間を短縮できました。
Tom Morris IBM IBM AIプラットフォーム支援研究のインフラストラクチャーおよびオペレーション・リーダー
GPU管理の変革:混乱から制御へ

IBM BAMチームは、GPUリソースのを最適化し、とLLM Kubernetesインスタンスのを管理のするために、高度なアプリケーション・リソース管理ソフトウェア・ツールである IBM® Turbonomicを導入しました。リアルタイム・データを使用活用するTurbonomicは、リソースの使用率と効率を最適化するための自動アクションに関するAI主導の推奨事項を生成します。最適なリソース割り当て配分戦略を特定することで、ソリューションはチームが自動的に実行するできるようなに構成できるカスタマイズ可能なされた提案を生成し、AI主導の駆動型リソース最適化を可能に実現しました。

IBM Turbonomicは、コンテナ化されたアプリケーション、バーチャル・仮装マシン、パブリッククラウドを含むなどのハイブリッドクラウド管理のを最適化するために特化して設計された特別にカスタマイズされたIBM社内ソフトウェアで、既存のインフラストラクチャー内でシームレスな統合を実現しています。

AIプラットフォーム研究者のTom Morris氏は「TurbonomicをがLLM推論サーバーのをスケールアップおよびスケールダウンできるように活用することで、パフォーマンスの監視に費やす時間が短縮された」と評価しています。

IBM提携前

3つの空きGPUを表示するセクションを強調表示する複数のデータを備えたTurbonomicのダッシュボード

IBM提携後

無料GPUの使用量を時系列で比較した折れ線グラフ。17種類の無料GPUの表示のあるAセクションを強調表示
パフォーマンスの向上、コストの削減:効率的なGPUリソース配分の結果

IBM BAMチームは、Turbonomicを活用使用することで、ビジネスの変化し続けるビジネスのニーズに適応し、できる柔軟で俊敏なインフラストラクチャーを構築しました。また、LLMサービスをサポートし、する100台を超える以上のNVIDIA A100 GPUを運用することができました。実行できる、スケーラブルで俊敏なインフラストラクチャーを構築することができました。

チームは、オーバー・プロビジョニングされたインスタンスをスケールダウン縮小することで、アイドル状態のGPUリソースを3から16(5.3倍)に増やし、そこれらのリソースで追加のワークロードを処理できるようにできることを示しました。

成果には以下のとおりです。次のものが含まれます。

  1. リソース割り当て配分の最適化
    自動化されたソリューションにより、動的なスケーリング拡大縮小が自然に実行され、さまざまなニーズに応じて利用可能なGPUが最適に利用されるようになりました。

  2. コスト効率の向上
     LLMサービスをオンデマンドでスケーリング拡大縮小することで、GPUのタイムシェアリングが可能になり、必要なGPUの合計総数が最適化されました。現在、スケーリング拡大縮小と共有により、IBM BAMチームは、完全な自動化環境で必要なGPUを13台も減らすことが可能になりました削減できると見込んでいます。

  3. 労働作業効率の向上 
    LLM推論サーバーの自動スケーリングにより、IBM BAMチームはパフォーマンスの監視に費やす時間を短縮できました。

  4. 拡張性とパフォーマンス
    LLMサービスのスケーリング拡大縮小を完全に自動化することでした後、元々過剰にオーバー・プロビジョニングされていた GPUリソースが解放され、需要に応じて基づいて他のワークロードでと共有可能できるようになりました。スループットの向上により、レイテンシー待機時間の問題に対処してを解決し、パフォーマンスを向上させる機会が得られましたす。

 

IBM BAMチームは、Turbonomicの自動化機能を適用して、LLMサービスの拡張と最適化に成功しました。この改善により、チームは戦略的なプロジェクトに時間を再配分できるようになりました。

3時間の経過に伴う負荷の増加と、キューイング時間と出力あたりの時間の減少を示す線形グラフ
IBMロゴ
IBM Big AI Modelsについて

IBM Big AI Models(BAM)チームは、IBM® Research 内の研究者とエンジニアで構成されるグループで、大規模なAIモデルの開発と適用に重点を置いています。これらのモデルは、膨大な量のデータを処理および分析するように設計されており、自然言語処理、コンピューター・ビジョン、予測分析などのアプリケーションを可能にします。

ソリューション・コンポーネント IBM Turbonomic
データ駆動型意思決定でビジネスを変革

IBM TurbonomicAI駆動型自動リソース管理でパフォーマンスと効率を最適化

Turbonomicで自動化を開始 お客様事例はこちら
法務

© Copyright IBM Corporation 2024 .IBM、IBMのロゴ、Turbonomic、IBM Researchは、米国およびその他の国におけるIBM社の商標または登録商標です。本書は最初の発行日時点における最新情報を記載しており、IBMにより予告なしに変更される場合があります。IBMが事業を展開している国または地域であっても、特定の製品を利用できない場合があります。

引用または説明されているすべての事例は、一部のお客様がIBMの製品を使用し、達成した結果の例として提示されています。他の運用環境における実際のパフォーマンス、コスト、節約、またはその他の成果は異なる場合があります。