ニューラル・ネットワークは、単純な「ニューロン」を層状に積み重ね、データからパターン認識の重みとバイアスを学習して入力を出力にマッピングする機械学習モデルです。
ニューラル・ネットワークは、現代の機械学習と人工知能 (AI )において最も影響力のあるアルゴリズムの1つです。これらは、コンピューター・ビジョン、自然言語処理 (NLP)、音声認識、および予測から顔認識に至るまでの無数の実世界のアプリケーションにおけるブレークスルーを支えています。今日のディープ・ニューラル・ネットワーク(DNN)は、 トランスフォーマー や 畳み込みニューラルネットワーク(CNN)と同じくらい複雑なシステムを支えていますが、ニューラル・ネットワークの起源は、線形回帰のような単純なモデルや、人間の脳が提示された情報を消化・処理・判断する仕組みにまで遡ります。
高いレベルで言えば、ニューラル・ネットワークのインスピレーションは、電気信号を通じて通信する人間の脳内の生物学的ニューロンから来ています。1943年、Warren McCulloch氏とWalter Pitts氏はニューロンの最初の数学的モデルを提案し、単純なユニットで関数の計算を実行できることを示しました。その後、1958年にFrank Rosenblatt氏は、パターン認識を実行するために設計されたアルゴリズムであるパーセプトロンを導入しました。パーセプトロンは今日のネットワークの歴史的な祖先であり、実質的にアウトプットが制約された線形モデルです。次のセクションでは、ニューラル・ネットワークが人間の脳からヒントを得て意思決定を行い、パターンを認識する仕組みについて詳しく説明します。
ニューラル・ネットワークは、スパム検知という単純な例で理解できます。Eメールがネットワークに送信され、「賞品」、「お金」、「拝啓」、「勝利」などの単語やフレーズなどがインプットとして使用されます。ネットワークの初期のニューロンは各信号の重要性を処理し、後の層はこの情報をコンテキストやトーンを捉えるためのより高いレベルの手がかりにまとめます。最後の層では、Eメールがスパムかどうかの確率を計算し、その確率が十分に高い場合に、Eメールにフラグが立てられます。本質的に、ネットワークは生の特徴を意味のあるパターンに変換し、それらを用いて予測を行う方法を学習します。
このプロセスは、重みとバイアスという2つの基本的な概念によって強化されます。重みは、各入力主要な機能が決定にどの程度強く影響するかを制御するダイヤルのように機能します。「賞品」のような単語には、「こんにちは」のような一般的な単語よりも重みが与えられる場合があります。バイアスとは、決定しきい値を移動させる組み込み値のことです。これにより、インプット自体が弱い場合でもニューロンが活性化します。これらのモデルパラメーターを組み合わせることで、各ニューロンが全体的な計算にどのように貢献するかが決まります。トレーニング中にこれらの値を調整することで、ネットワークは正確な予測(この場合はEメールがスパムかどうか)を行えるように徐々に学習します。
数学的には、ニューラル・ネットワークは入力ベクトルをマッピングすることによって関数を学習し応答を予測しますニューラル・ネットワークを他の従来の機械学習アルゴリズムと区別するのは、その階層構造とトランスフォーメーションを実行する能力にあります。
ニューラル・ネットワークは次の要素で構成されています。
他の機械学習アルゴリズムと同様に、ニューラル・ネットワークがテストで優れたパフォーマンスを発揮するには、厳格なトレーニングが必要です。ネットワークをトレーニングするために、単一ニューロンは以下を計算します。
説明:
この損失を最小限に抑えるために、ネットワークはバックプロパゲーションと呼ばれるアルゴリズムを使用します。ニューラル・ネットワークのトレーニングは、次の4つのステップで行われます。
このプロセスをトレーニング・データ・セットに対して何度も繰り返します。各パスは、ネットワークが内部パラメーターを「チューニング」するのに役立ち、その予測は正しい答えに徐々に近づきます。時間の経過とともに、ネットワークは、誤差を最小限に抑え、目に見えないデータにうまく一般化する一連の重みとバイアスに収束します。バックプロパゲーションと勾配降下法は、ニューラル・ネットワークを機能させるエンジンです。これにより、数百万(または数十億)のパラメーターを持つネットワークが、大規模なデータセットから意味のあるパターンを学習できるようになります。
しかし、高性能モデルをトレーニングする実践者の努力にも関わらず、ニューラル・ネットワークは依然として他の機械学習モデルと同様の課題、最も重要なのは過学習という課題に直面しています。ニューラル・ネットワークがパラメーターが多すぎて過度に複雑になると、モデルがトレーニングデータに過剰適合し、予測が不十分になります。過学習はあらゆる種類のニューラル・ネットワークで共通の問題であり、バイアスと分散のトレードオフに細心の注意を払うことが、高性能のニューラル・ネットワークモデルを作成するために最も重要です。
トランスフォーマーやエンコーダー・デコーダーモデルなどの現代のニューラル・ネットワークアーキテクチャは、同じ中心原則 (学習された重みとバイアス、積層レイヤー、非線形有効化、バックプロパゲーションによるエンドツーエンドのトレーニング) に従っています。それらは主に、入力がレイヤー間でどのように混合されるかという点で異なります。トランスフォーマーは、完全に接続されたミキシングのみではなく、注意を使用してデータに依存する重み付けされた表現の組み合わせを形成し、残差接続、正規化、位置エンコーディングとともに、同じ基本に基づいて構築された配線を強化します。
多層パーセプトロンが基盤である一方で、ニューラル・ネットワークは以下のようにさまざまなドメインに適した特殊なアーキテクチャーに進化してきました。
ニューラル・ネットワークは、今日のAIシステムの多くを支えています。ニューラルネットワークの主なアプリケーションは次のとおりです。
これらのアプリケーションは、医療、金融、ロボット工学、エンターテインメントなど、あらゆる分野で現実世界の革新を推進しています。
ニューラル・ネットワークは、データから直接有用な内部表現を学習し、従来のモデルでは見逃されていた非線形構造を捉えます。十分な容量、健全な目的、過剰適合に対する正則化により、小規模なベンチマークからコンピューター・ビジョン、自然言語処理、音声認識、予測などの実稼働システムまで拡張でき、精度と堅牢性において測定可能な向上を実現します。
最新のディープラーニングは、これらの基盤を拡張します。CNNは画像の空間抽出に特化しており、RNNはシーケンス内の時間依存性をモデル化し、トランスフォーマーは残差接続、正規化、GPU上の効率的な並列処理を利用して、再帰性を注意に置き換えます。
アーキテクチャーの違いにもかかわらず、トレーニングは大規模なデータセットに対するバックプロパゲーションによるエンドツーエンドであり、中心的な視点は引き続き維持されます。データ依存の変換と非線形活性化関数を組み合わせることで学習されます。生成AIは、同じ原理をより大規模に構築します。大規模言語モデル、拡散モデル、VAE、 GANは、データの分布を学習して、テキスト、画像、音声、コードを合成します。
多層パーセプトロンから最先端のジェネレータへの飛躍は、主にアーキテクチャ、データ、コンピューティングの面から生じます。活性化関数、トレーニング要件、主なネットワークタイプを理解することで、古典的なニューラル・ネットワークから今日の生成システムへの実用的な橋渡しができ、これらのモデルが現代のAIの中心となった理由が明らかになります。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。