ニューラル・ネットワークとは

著者

Fangfang Lee

Developer Advocate

IBM

ニューラル・ネットワークとは

ニューラル・ネットワークは、単純な「ニューロン」を層状に積み重ね、データからパターン認識の重みとバイアスを学習して入力を出力にマッピングする機械学習モデルです。

ニューラル・ネットワークは、現代の機械学習人工知能 (AI )において最も影響力のあるアルゴリズムの1つです。これらは、コンピューター・ビジョン自然言語処理 (NLP)音声認識、および予測から顔認識に至るまでの無数の実世界のアプリケーションにおけるブレークスルーを支えています。今日のディープ・ニューラル・ネットワーク(DNN)は、 トランスフォーマー畳み込みニューラルネットワーク(CNN)と同じくらい複雑なシステムを支えていますが、ニューラル・ネットワークの起源は、線形回帰のような単純なモデルや、人間の脳が提示された情報を消化・処理・判断する仕組みにまで遡ります。

ニューラル・ネットワークの仕組み

高いレベルで言えば、ニューラル・ネットワークのインスピレーションは、電気信号を通じて通信する人間の脳内の生物学的ニューロンから来ています。1943年、Warren McCulloch氏とWalter Pitts氏はニューロンの最初の数学的モデルを提案し、単純なユニットで関数の計算を実行できることを示しました。その後、1958年にFrank Rosenblatt氏は、パターン認識を実行するために設計されたアルゴリズムであるパーセプトロンを導入しました。パーセプトロンは今日のネットワークの歴史的な祖先であり、実質的にアウトプットが制約された線形モデルです。次のセクションでは、ニューラル・ネットワークが人間の脳からヒントを得て意思決定を行い、パターンを認識する仕組みについて詳しく説明します。

ニューラル・ネットワークは、スパム検知という単純な例で理解できます。Eメールがネットワークに送信され、「賞品」、「お金」、「拝啓」、「勝利」などの単語やフレーズなどがインプットとして使用されます。ネットワークの初期のニューロンは各信号の重要性を処理し、後の層はこの情報をコンテキストやトーンを捉えるためのより高いレベルの手がかりにまとめます。最後の層では、Eメールがスパムかどうかの確率を計算し、その確率が十分に高い場合に、Eメールにフラグが立てられます。本質的に、ネットワークは生の特徴を意味のあるパターンに変換し、それらを用いて予測を行う方法を学習します。

このプロセスは、重みとバイアスという2つの基本的な概念によって強化されます。重みは、各入力主要な機能が決定にどの程度強く影響するかを制御するダイヤルのように機能します。「賞品」のような単語には、「こんにちは」のような一般的な単語よりも重みが与えられる場合があります。バイアスとは、決定しきい値を移動させる組み込み値のことです。これにより、インプット自体が弱い場合でもニューロンが活性化します。これらのモデルパラメーターを組み合わせることで、各ニューロンが全体的な計算にどのように貢献するかが決まります。トレーニング中にこれらの値を調整することで、ネットワークは正確な予測(この場合はEメールがスパムかどうか)を行えるように徐々に学習します。

数学的には、ニューラル・ネットワークはf(X)入力ベクトルをマッピングすることによって関数を学習しX=(x1,x2,x3...)応答を予測しますY.ニューラル・ネットワークを他の従来の機械学習アルゴリズムと区別するのは、その階層構造とトランスフォーメーションを実行する能力にあります。

ニューラル・ネットワークは次の要素で構成されています。

  • 入力層: 主要な機能を保持(X1,X2,X3,..)

  • 隠れ層:入力を新しい表現に変換する人工ニューロン(またはノード)で構成されます。数学的には、隠れ層は入力特徴量に、それに対応する重みとバイアスを加えて乗算し、次の層へと伝達されることで表現される。最終的に最終出力層に到達します。ここで、入力と出力の間の線形変換が行われます。

  • 出力層: 隠れ層で線形トランスフォーメーションを実行した後、非線形有効化関数(tanh、シグモイド、ReLU )を追加し、最終予測(回帰の数値や分類の確率分布など)を生成します。
3つの隠れ層を持つニューラル・ネットワークの図:入力層、複数の隠れ層、出力層 3つの隠れ層を持つ標準的なフィードフォワード・ニューラル・ネットワーク。

ニューラル・ネットワークのトレーニング

他の機械学習アルゴリズムと同様に、ニューラル・ネットワークがテストで優れたパフォーマンスを発揮するには、厳格なトレーニングが必要です。ネットワークをトレーニングするために、単一ニューロンは以下を計算します。

 z=i=1nwixi+b

 a=σ(z)

説明:

  •  xi= 入力特徴量、
  •  wi=重み、
  •  b= バイアス、
  •  z= 加重和(線形変換)、
  •  σ= 活性化関数(非線形変換)、
  •  a= 出力、

 σ出力層における活性化関数を表し、線形結合を変換して関数の判定に適合させます。このアーキテクチャを用いることで、入力特徴量Xが出力Yに変換され、予測機械学習モデルとして機能します。

ニューラル・ネットワークの力は、データから適切な重みとバイアスを学習する能力によって発揮されます。これは、ネットワークの予測をY^真のラベルと比較し、Y損失関数を用いて誤差を測定することで実現されます。たとえば、分類タスクでは、予測された確率が正解からどれだけ離れているかを損失で測定する場合があります。

この損失を最小限に抑えるために、ネットワークはバックプロパゲーションと呼ばれるアルゴリズムを使用します。ニューラル・ネットワークのトレーニングは、次の4つのステップで行われます。

  • フォワードパス: ネットワークを介した入力フロー。線形結合を計算し、非線形有効化関数を通過して出力予測を生成します。

  • 誤差計算: 損失関数は予測と真実の差を測定します。

  • バックワードパス(バックプロパゲーション):エラーはネットワークを介して逆伝播します。各ニューロンでは、アルゴリズムは微積分の連鎖律を使用して、各重みとバイアスがエラーにどの程度寄与したかを計算します。

  • 重みの更新: 勾配降下法などの最適化手法を使用して、重みとバイアスをエラーを減らす方向にわずかに調整します。
勾配降下法の図、x軸の「重み値」、y軸の「損失」、図の左上に「開始点」、最低部分に「収束点、すなわちコスト関数が最小となる点」との説明文があります

このプロセスをトレーニング・データ・セットに対して何度も繰り返します。各パスは、ネットワークが内部パラメーターを「チューニング」するのに役立ち、その予測は正しい答えに徐々に近づきます。時間の経過とともに、ネットワークは、誤差を最小限に抑え、目に見えないデータにうまく一般化する一連の重みとバイアスに収束します。バックプロパゲーションと勾配降下法は、ニューラル・ネットワークを機能させるエンジンです。これにより、数百万(または数十億)のパラメーターを持つネットワークが、大規模なデータセットから意味のあるパターンを学習できるようになります。

しかし、高性能モデルをトレーニングする実践者の努力にも関わらず、ニューラル・ネットワークは依然として他の機械学習モデルと同様の課題、最も重要なのは過学習という課題に直面しています。ニューラル・ネットワークがパラメーターが多すぎて過度に複雑になると、モデルがトレーニングデータに過剰適合し、予測が不十分になります。過学習はあらゆる種類のニューラル・ネットワークで共通の問題であり、バイアスと分散のトレードオフに細心の注意を払うことが、高性能のニューラル・ネットワークモデルを作成するために最も重要です。

トランスフォーマーやエンコーダー・デコーダーモデルなどの現代のニューラル・ネットワークアーキテクチャは、同じ中心原則 (学習された重みとバイアス、積層レイヤー、非線形有効化、バックプロパゲーションによるエンドツーエンドのトレーニング) に従っています。それらは主に、入力がレイヤー間でどのように混合されるかという点で異なります。トランスフォーマーは、完全に接続されたミキシングのみではなく、注意を使用してデータに依存する重み付けされた表現の組み合わせを形成し、残差接続、正規化、位置エンコーディングとともに、同じ基本に基づいて構築された配線を強化します。

ニューラル・ネットワークのタイプ

多層パーセプトロンが基盤である一方で、ニューラル・ネットワークは以下のようにさまざまなドメインに適した特殊なアーキテクチャーに進化してきました。

  • 畳み込みニューラルネットワーク(CNNまたはconvnets):画像などのグリッドのようなデータ用に設計されています。CNNは、特徴の空間階層を検知する畳み込みフィルターにより、画像認識、コンピューター・ビジョン、顔認識に優れています。

  • リカレント・ニューラル・ネットワーク (RNN) : タイムステップをまたいで情報を保持できるようにするフィードバックループを組み込みます。RNNは、音声認識、時系列予測、順次データに適しています。

  • トランスフォーマー: 多くのシーケンスタスクのRNNに代わる最新のアーキテクチャー。トランスフォーマーは、自然言語処理(NLP)における依存関係を捕捉するために注意メカニズムを活用し、GPTなどの最先端モデルを支えています。
  • これらのバリエーションは、ニューラル・ネットワークの汎用性を浮き彫りにしています。アーキテクチャーに関係なく、すべてが同じ原理(人工ニューロン、非線形有効化、最適化アルゴリズム)に依存しています。
オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

ニューラル・ネットワークのアプリケーション

ニューラル・ネットワークは、今日のAIシステムの多くを支えています。ニューラルネットワークの主なアプリケーションは次のとおりです。

  • コンピューター・ビジョン: 画像認識、医用画像処理、自動運転車用のCNN。

  • 自然言語処理: 機械翻訳、チャットボット、要約のためのトランスフォーマー。

  • 音声認識:テープ起こしや音声アシスタントのためのRNNとディープネット。

  • 予測と時系列: 需要予測、財務モデリング、気象予測。

  • 強化学習:ゲームプレイエージェントの関数近似器としてのニューラルネット(例:Deepmindの囲碁プレイエージェントAlphaGo)。

  • パターン認識: 不正行為の識別、異常の検出、または文書の分類。

これらのアプリケーションは、医療、金融、ロボット工学、エンターテインメントなど、あらゆる分野で現実世界の革新を推進しています。

ニューラル・ネットワークが重要な理由

ニューラル・ネットワークは、データから直接有用な内部表現を学習し、従来のモデルでは見逃されていた非線形構造を捉えます。十分な容量、健全な目的、過剰適合に対する正則化により、小規模なベンチマークからコンピューター・ビジョン、自然言語処理、音声認識、予測などの実稼働システムまで拡張でき、精度と堅牢性において測定可能な向上を実現します。

最新のディープラーニングは、これらの基盤を拡張します。CNNは画像の空間抽出に特化しており、RNNはシーケンス内の時間依存性をモデル化し、トランスフォーマーは残差接続、正規化、GPU上の効率的な並列処理を利用して、再帰性を注意に置き換えます。

アーキテクチャーの違いにもかかわらず、トレーニングは大規模なデータセットに対するバックプロパゲーションによるエンドツーエンドであり、中心的な視点は引き続き維持されます。Y=f(X;σ)データ依存の変換と非線形活性化関数を組み合わせることで学習されます。生成AIは、同じ原理をより大規模に構築します。大規模言語モデル、拡散モデル、VAEGANは、データの分布を学習して、テキスト、画像、音声、コードを合成します。

多層パーセプトロンから最先端のジェネレータへの飛躍は、主にアーキテクチャ、データ、コンピューティングの面から生じます。活性化関数、トレーニング要件、主なネットワークタイプを理解することで、古典的なニューラル・ネットワークから今日の生成システムへの実用的な橋渡しができ、これらのモデルが現代のAIの中心となった理由が明らかになります。

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約