NPU（ニューラル・プロセッシング・ユニット）とは

NPU（ニューラル・プロセッシング・ユニット）とは

ニューラル・プロセッシング・ユニット（NPU）は、人間の脳の処理機能を模倣するように設計された特殊なコンピューター・マイクロプロセッサーです。これらは、人工知能（AI）、ニューラル・ネットワーク、ディープラーニング、機械学習のタスクとアプリケーション向けに最適化されています。

汎用中央処理装置（CPU）やグラフィックス・プロセッシング・ユニット（GPU）とは異なり、NPUは、スカラー、ベクトル、テンソル数学で構成されるニューラル・ネットワーク層の計算など、AIタスクとワークロードを高速化するように調整されています。

AIチップまたはAIアクセラレーターとも呼ばれるNPUは、通常、複数のプロセッサー（CPUやGPUなど）を組み合わせた異種コンピューティング・アーキテクチャー内で使用されます。大規模データセンターでは、システムのマザーボードに直接接続されたスタンドアロンのNPUを使用できますが、スマートフォン、モバイル・デバイス、ノートPCなどのほとんどの消費者向けアプリケーションでは、システム・オン・チップ（SoC）と呼ばれる単一の半導体マイクロチップ上でNPUが他のコプロセッサーと統合されています。

専用のNPUを統合することで、メーカーはAIアプリケーション、AIワークロード、機械学習アルゴリズムをリアルタイムで処理できるオンデバイス上の生成AIアプリを、比較的低い消費電力と高いスループットで提供することができます。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

GPUの主な機能

ニューラル・プロセッシング・ユニット（NPU）は、ディープラーニング・アルゴリズム、音声認識、自然言語処理、写真およびビデオ処理、オブジェクト検知などの低遅延の並列コンピューティングを必要とするタスクに適しています。

NPUの主な機能は次のとおりです。

並列処理： NPUは、より大きな問題をコンポーネントに分解し、マルチタスク問題解決を行うことができます。これにより、プロセッサーは複数のニューラル・ネットワーク・オペレーションを同時に実行できます。

低精度演算： NPUは、計算の複雑さを軽減し、エネルギー効率を高めるために、多くの場合、8ビット（またはそれ以下）のオペレーションをサポートしています。

高帯域幅メモリー： 多くのNPUは、大規模なデータセットを必要とするAI処理タスクを効率的に実行するために、主要な機能をオンチップに搭載しています。

ハードウェア・アクセラレーション： NPU設計の進歩により、シストリック・アレイ・アーキテクチャーや改良型テンソル処理などのハードウェア・アクセラレーション技術が組み込まれています。

GPUの仕組み

脳のニューラル・ネットワークに基づいて、ニューラル・プロセッシング・ユニット（NPU）は、回路層で人間のニューロンとシナプスの動作をシミュレートすることで機能します。これにより、1つの命令が仮想ニューロンのセットの処理を完了するディープラーニング命令セットの処理が可能になります。

従来のプロセッサーとは異なり、NPUは正確な計算のために構築されていません。代わりに、NPUは問題解決機能専用であり、さまざまな種類のデータと入力から学習して、時間の経過とともに改善できます。機械学習を活用するため、NPUを組み込んだAIシステムは、手動プログラミングを必要とせずに、カスタマイズされたソリューションをより迅速に提供できます。

際立った主要な機能として、NPUは優れた並列処理を提供し、複数の種類のタスクの実行から解放された簡素化された大容量コアを通じてAIオペレーションを高速化できます。NPUには、乗算および追加、有効化関数、2Dデータオペレーション、および解凍のための特定のモジュールが含まれています。専用の乗算および追加モジュールは、行列の乗算と追加、畳み込み、内積などの関数の計算など、ニューラル・ネットワーク・アプリケーションの処理に関連するオペレーションを実行するために使用されます。

従来のプロセッサーでは、この種のニューロン処理を完了するために何千もの命令が必要ですが、NPUでは１つだけで同様のオペレーションを完了できる可能性があります。NPUはまた、シナプス重み（ネットワークノードに割り当てられる流動的な計算変数）を通じてストレージと計算を統合し、時間の経過とともに調整または「学習」できる「正しい」または「望ましい」成果の確率を示し、運用効率の向上につながります。

NPUの開発は次に進むとともに進化し続けていますが、テストでは、一部のNPUの性能が、同じ消費電力で同等のGPUよりも100倍以上向上することが示されています。

IBMとのSmart Talks

インフラストラクチャはAI時代をどのように支えているのか

ハードウェアの機能がが大規模言語モデルの実行に必要なマトリックス計算を可能にする仕組みを解説し、銀行から地域のカフェまで、AIを業務に利用するためのクリエイティブな事例をご紹介します。

IBMのポッドキャストはこちら

GPUの主なメリット

ニューラル・プロセッシング・ユニット（NPU）は、従来のCPUやGPUに代わる設計ではなく、そうなることを期待されていません。ただし、NPUのアーキテクチャーは両方のプロセッサーの設計を改善し、比類のないより効率的な並列処理と機械学習を実現しています。NPUは、一般的なオペレーションを改善できます（ただし、特定の種類の一般的なタスクに最適）。CPUやGPUと組み合わせると、従来のシステムに比べていくつかの貴重な利点があります。

主なメリットには以下のようなものがあります。

並列処理： 前述したように、NPUは、より大きな問題をマルチタスクの問題解決のためのコンポーネントに分解することができます。GPUは並列処理にも優れていますが、NPUの独自の構造により、エネルギー消費が削減され、物理的フットプリントが小さくなり、同等のGPUよりも優れたパフォーマンスを発揮できることが重要です。

効率性の向上： GPUは高性能コンピューティングやAIタスクによく使用されますが、NPUは同様の並列処理をはるかに優れた効率で実行できます。AIやその他の高性能コンピューティングがますます一般的になり、エネルギー需要が高まる中、NPUはクリティカルな電力消費を削減するための貴重なソリューションを提供します。

リアルタイム・マルチメディア・データ処理： NPUは、画像、動画、音声など、より幅広いインプットをより適切に処理し、応答するように設計されています。ロボット、モノのインターネット（IoT）デバイス、ウェアラブルなどのアプリケーションをNPUで拡張すると、リアルタイムのフィードバックが提供され、運用上の摩擦が軽減され、応答時間が最も重要となるときに重要なフィードバックとソリューションを提供できます。

NPU、GPU、CPUの比較

古典的なコンピューター・サイエンスの世界では、中央処理装置（CPU）はコンピューターの「頭脳」と考えられています。CPUは従来のコンピューティング・タスクのほとんどを処理し、幅広い潜在的なアプリケーションを担当します。さまざまな種類がありますが、一般的にはすべてのCPUは直線的な順序でオペレーションを実行し、受信した順序でリクエストに応答します。

1950年代から1990年代にかけて、CPUは事実上すべてのコンピューター処理の核となり、プログラムを実行し、システムを制御し、インプット/アウトプットを管理する命令を実行しました。

要求の厳しいアプリケーションにより、定期的にCPU設計の世代がハードウェアの限界に達し、大幅な速度低下やシステム障害さえも引き起こされていました。しかし、1980年代にパーソナル・コンピューター・ゲームとコンピューター支援設計（CAD）が登場すると、業種はコンピューター・グラフィックをレンダリングするためのより高速で効率的なソリューションを必要としました。

グラフィックス・プロセッシング・ユニット（GPU）は当初、メインCPUから要求の厳しい画像処理タスクをオフロードするために作成されました。GPUは、線形操作を実行するために使用するコアの数が少ない傾向がありますが、GPUは並列処理を実行する能力を持つ数百から数千のコアを備えています。並列処理とは、大規模なタスクを複数のプロセッサーやツールが同時に解決できる小さな問題に分解するプロセスのことです。

GPUは当初、ビデオや画像処理のニーズに対応するために開発されましたが、その並列処理機能により、ブロックチェーン関連のタスクやAIなど、要求の厳しい他のコンピューティング・アプリケーションにも独自に適したハードウェアとなっています。GPUは並列処理や並列コンピューティングを実行できる唯一のタイプのプロセッサーではありませんが、並列処理に適しています。ただし、GPUには限界がないわけではなく、より要求の厳しいオペレーションを実行するためには通常、非常に高価な電力消費が必要です。GPUでは、性能の向上に伴ってエネルギー・コストも増加します。

NPUやその他のAIアクセラレーターは、より効率的な代替手段を提供します。GPUの高度な並列性を組み込んで改良したAI処理専用に設計されたNPUは、より少ない消費電力で高いパフォーマンスを実現します（物理フットプリントが小さくなるというメリットもあります）。

プロセッサーの比較

中央処理装置： コンピューターの「頭脳」。CPUは通常、内部トランジスタの約70%をキャッシュ・メモリーの構築に割り当て、コンピューターの制御装置の一部となります。コア数が比較的少なく、線形問題解決のためのシリアル・コンピューティング・アーキテクチャーを使用し、正確な論理制御オペレーションのために設計されています。

グラフィック・プロセッシング・ユニット： 最初に画像処理とビデオ処理を処理するために開発されたGPUは、CPUよりもはるかに多くのコアを搭載し、トランジスタのほとんどを使用して複数の計算ユニットを構築します。それぞれの計算複雑度は低く、高度な並列処理が可能です。大規模なデータ処理を必要とするワークロードに適したGPUは、ビッグデータ、バックエンド・サーバー・センター、ブロックチェーン・アプリケーションで大きな有用性を獲得しています。

ニューラル・プロセッシング・ユニット： GPUの並列処理に基づいて構築されたNPUは、人間の脳のニューロンをシミュレートするように設計されたコンピューター・アーキテクチャーを使用して、非常に効率的な高い性能を実現します。NPUはシナプスの重みを使用してメモリー・ストレージと計算機能の両方を統合するため、非常に低遅延で精度の低いソリューションが提供される場合があります。CPUは精密な線形コンピューティング用に設計されていますが、NPUは機械学習用に構築されているため、マルチタスク、並列処理、および他のプログラミングを必要とせずにオペレーションを長期的に調整およびカスタマイズする機能が向上します。

NPUのユースケース

新しいテクノロジーとして、Microsoft、Intel、Nvidia、Qualcomm、Samsungなどの多くの大手コンピューターおよびハードウェア・メーカーが、スタンドアロンのニューラル・プロセッシング・ユニット（NPU）またはApple Neural Engineなどの統合型バリエーションのいずれかを提供しています。

NPUを家庭用電子機器に組み込むと、画像認識の向上やAI対応カメラの最適化など、さまざまなメリットが得られます。例えば、ビデオ通話の背景をより効果的にぼやかせることができます。NPUのその他のアプリケーションには、次のようなものがあります。

人工知能と大規模言語モデル

AIアクセラレーターの一種であるNPUは、ニューラル・ネットワークなどのAIおよびMLシステムの性能を向上させることを目的として構築されています。GPUを補完するNPUの並列処理の向上により、マルチメディア信号の解釈、音声認識の実行、AIチャットボットや生成AI画像およびビデオ・アプリケーションなどのツールで使用される自然言語とアートの生成など、低遅延の適応型処理を必要とする大規模言語モデルのパフォーマンスが劇的に向上します。

モノのインターネット（IoT）デバイス

優れた並列処理と自己学習機能を備えたNPUは、ウェアラブル、音声アシスタント、スマート家電などのIoTデバイスに最適です。

データセンター

エネルギー・リソースの最適化を目指すデータセンターにとって、AIと機械学習は大きな恩恵となっています。高性能でエネルギー効率に優れたNPUは、クラウド・コンピューティングのリソース管理を改善し、データセンターに大きな価値をもたらします。

自律走行車

ドローンや自動運転車やトラックなどの自律走行車は、NPUのリアルタイム処理機能により大きなメリットを受けており、マルチメディア・センサー入力に基づくより迅速かつ適切な軌道修正が可能になっています。比類のない並列処理により、NPUは自動運転車が道路標識、交通パターン、さらには予期せぬ障害物など、急速に展開するインプットを解釈して処理するのを支援します。

エッジコンピューティングとエッジAI

クラウド・コンピューティングは、IoT（モノのインターネット）、スマート・デバイス、その他のパーソナル・コンピューティング・デバイス向けに高度なオフサイト・データおよびリソース・ソリューションを提供しますが、エッジコンピューティングとエッジAIは、クリティカルなデータとコンピューティング・リソースを物理的にユーザーに近づけることを目指しています。これにより、レイテンシーが短縮され、エネルギー消費が軽減され、プライバシーが強化されます。NPUは、必要なエネルギーが少なく、物理的なフットプリントが小さくて済むため、エッジコンピューティングやオンデバイスAIの貴重なコンポーネントになりつつあります。