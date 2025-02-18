自己注意は、機械学習モデルで使用される注意メカニズムの一種です。このメカニズムは、インプット・シーケンス内のトークンまたは単語の重要性を重み付けし、それらの間の関係をよりよく理解するために使用されます。これは、自然言語処理（NLP）タスクに不可欠な強力な人工知能アーキテクチャーであるTransformerモデルの重要な部分です。Transformerアーキテクチャーは、ほとんどの最新の大規模言語モデル（LLM）の基盤です。

自己注意メカニズムは、研究者によって提案されたモデル・ニューラル・ネットワーク・アーキテクチャーであるTransformerによって導入されました。提案されたアーキテクチャーの目的は、畳み込みニューラルネットワーク（CNN）と再帰型ニューラルネットワーク（RNN）を使用する、従来の機械学習モデルの課題に対処することでした。1

従来のシーケンシャル・モデルは、Transformerモデルと同じエンコーダー／デコーダー・アーキテクチャーに従いますが、データをステップごとに、またはシーケンスごとに（seq2seq）処理します。この機能は並列化に課題をもたらします。それは、インプット・シーケンスのすべての部分に対する注意の重みを同時に計算することで、計算時間を短縮し、アウトプット生成を強化する機能です。



自己注意は、トレーニング・サンプル内での並列化を可能にすることで、LLMの進歩に重要な役割を果たしました。この方法が便利なのは、シーケンスの長さが長いほど、メモリーの制約が増え、トレーニング例全体でのバッチ処理が制限されるためです。自己注意法を使用すると、LLMトレーニング・データをバッチに分割し、複数のGPUで同時に処理できます。1 自己注意法は、効率的なバッチ処理を並列に行うことで、機械学習モデルのトレーニングに必要な計算能力を削減します。

自己注意は、計算負荷を効率的に分散することに貢献するだけでなく、注意の重みを同時に処理する能力も可能にします。この機能により、モデルはインプット・シーケンスの関連部分に焦点を当て、シーケンス内の各要素の重要度を動的に予測することができます。自己注意は、機械翻訳、感情分析、要約などのNLPタスクに適しています。