自己注意は、機械学習モデルで使用される注意メカニズムの一種です。このメカニズムは、インプット・シーケンス内のトークンまたは単語の重要性を重み付けし、それらの間の関係をよりよく理解するために使用されます。これは、自然言語処理(NLP)タスクに不可欠な強力な人工知能アーキテクチャーであるTransformerモデルの重要な部分です。Transformerアーキテクチャーは、ほとんどの最新の大規模言語モデル(LLM)の基盤です。
自己注意メカニズムは、研究者によって提案されたモデル・ニューラル・ネットワーク・アーキテクチャーであるTransformerによって導入されました。提案されたアーキテクチャーの目的は、畳み込みニューラルネットワーク(CNN)と再帰型ニューラルネットワーク(RNN)を使用する、従来の機械学習モデルの課題に対処することでした。1
従来のシーケンシャル・モデルは、Transformerモデルと同じエンコーダー/デコーダー・アーキテクチャーに従いますが、データをステップごとに、またはシーケンスごとに(seq2seq)処理します。この機能は並列化に課題をもたらします。それは、インプット・シーケンスのすべての部分に対する注意の重みを同時に計算することで、計算時間を短縮し、アウトプット生成を強化する機能です。
自己注意は、トレーニング・サンプル内での並列化を可能にすることで、LLMの進歩に重要な役割を果たしました。この方法が便利なのは、シーケンスの長さが長いほど、メモリーの制約が増え、トレーニング例全体でのバッチ処理が制限されるためです。自己注意法を使用すると、LLMトレーニング・データをバッチに分割し、複数のGPUで同時に処理できます。1 自己注意法は、効率的なバッチ処理を並列に行うことで、機械学習モデルのトレーニングに必要な計算能力を削減します。
自己注意は、計算負荷を効率的に分散することに貢献するだけでなく、注意の重みを同時に処理する能力も可能にします。この機能により、モデルはインプット・シーケンスの関連部分に焦点を当て、シーケンス内の各要素の重要度を動的に予測することができます。自己注意は、機械翻訳、感情分析、要約などのNLPタスクに適しています。
機械学習モデルの自己注意は、どちらも情報を正確に処理するためにより大きなコンテキスト内の関連要素に焦点を当てるという点で、人間の行動概念に似ています。心理学では、自分の考えや行動に焦点を当てることを意味しますが、ディープラーニングでは、インプット・シーケンスの関連部分に焦点を当てることを意味します。
Transformerアーキテクチャーには、注意プロセスが統合された自己注意層が含まれています。その手順は、Ashish Vaswaniらが自己注意層を紹介している「Attention is All You Need」の論文で紹介されている通りです。
インプット・シーケンスは、埋め込みまたは数値表現にベクトル化された一連のデータ・ポイントであり、機械学習アルゴリズムはアウトプット・シーケンスを生成するために必要な注意スコアを計算するために使用できます。
機械翻訳では、文はインプット・シーケンスとみなされ、文の各部分はデータ・ポイントまたはインプット・トークンと見なされます。トークンは、モデルが処理できる意味単位として機能する埋め込みに変換されます。2埋め込みは、モデルが最も関連性の高いインプット・データを優先する(または注意する)のに役立つ注意の重みを計算するために使用されます。
モデルは、これらの埋め込みを使用して、各トークンに対して、質問(Q)、キー(K)、値(V)という3つのキー・ベクトルを生成します。これらの値は、モデルが入力文章内で最も強力な意味的一致を作成するのに役立ちます。
行列乗算は、クエリー、キー、および値ベクトルを取得するために実行されます。注意のメカニズムは、それぞれのクエリー、キー、値コンポーネントの重み行列と埋め込まれたインプットに基づいて、値の加重合計を計算します。1このプロセスは線形変換として知られています。
埋め込みが変換された後、シーケンス内の各要素の注意スコアが計算されます。注意スコアは、クエリー・ベクトルとキー・ベクトルの間の拡張内積注意スコアを取ることによって得られます。これらの注意の重みは、特定のトークンがシーケンス内の他のトークンにどの程度の焦点(または注意)を与える必要があるかを表します。
次に、注意スコアは主要ベクトルの次元の平方根によってスケールアップされます。このプロセスは、勾配を安定させ、ベクトルの次元が増えるにつれて、勾配が大きくなりすぎて効率的に計算できないのを防ぐのに役立ちます。
クエリー・ベクトルとキー・ベクトルの内積から得られる注意スコアは、ソフトマックス関数を使用して確率に変換されます。このプロセスは正規化と呼ばれます。
これらの正規化された確率により、ソフトマックス・アテンション・ブロックは、Transformerアーキテクチャーが出力生成中に個々の入力要素の重要性を評価できるようにします。3これらの確率は、シーケンス内の各要素の相対的な重要性を見つけるために使用されます。アテンション・モデルは、これらの正規化された重みを使用して、インプットのどの部分に焦点を当てるかを決定します。
最後に、このプロセスから得られた注意の重みは、価値ベクトルの最終的な重み付けに貢献します。注意スコアが高いほど、シーケンスの注意の重みが大きくなります。これは、値ベクトルの重み付けされた合計の最終的なアウトプットにより大きな影響力を持つことを意味します。
アテンション・モデルは、シーケンス内の各要素またはトークン間の距離に関係なく、長距離依存関係を把握するのに効果的です。マルチヘッド・アテンションは、インプット・データセット内のさまざまな要素に同時に注意を向けることによってこの主要な機能を強化する、自己注意法の重要な拡張です。モデルはデータの明確な側面や関係に一度に注意を向けることができるため、依存関係やトークンの間でより多くのコンテキストを抽出することができます。
BERTな(Transformerからの双方向エンコーダー表現)どの初期の双方向モデルでは、モデルが前方シーケンスと後方シーケンスの両方からの情報を考慮できるようにすることで、コンテキストの理解が向上しました。双方向の注意では、モデルは周囲の単語に基づいて単語の意味を理解することを目的としています。4
GPTモデルは自己注意法を普及させ、生成タスクの拡張されたコンテキスト・ウィンドウのメリットを強調しました。一度に処理できる情報が増えれば、精度と理解の向上につながります。
AIモデルは、自己注意法を使用して長いインプット・シーケンスを効率的に処理し、メモリー使用量を削減しながら大規模に注意情報を交換します。5 自己注意により、モデルはモデル内のコンテキスト・ウィンドウを使用して、より深くコンテキストを理解することができます。コンテキスト・ウィンドウが大きければ大きいほど、モデルが一度に注意を向けることができるトークンの数は多くなります。
NLPのタスク:自己注意メカニズムは、テキスト全体の効率的で完全な分析を可能にすることで、機械学習モデルの言語機能を強化します。研究では、感情分類の進歩が示されています。6モデルは、注意層によって単語間の距離に関係なく単語間の関係を計算できるため、NLPタスクを適切に実行できます。7
コンピューター・ビジョン:自己注意メカニズムはNLPタスクに限定されるものではありません。画像の特定の部分に焦点を合わせるために使用できます。画像認識モデルの開発は、自己注意がその堅牢性と一般性を高めるための重要なコンポーネントであることを示唆しています。8
1.「Attention Is All You Need」、Ashish Vaswani他著、第31回神経情報処理システム国際会議論文集、arXiv:1706.03762v7、2023年8月2日改訂。
2. 「Tokenization」エッセイ、『Introduction to Information Retrieval』Christopher Manning、Prabhakar Raghavan、Hinrich Schutze著、2008年。
3.「Rethinking Softmax: Self-Attention with Polynomial Activations」、Hemanth Saratchandran他著、Australian Institute of Machine Learning、アデレード大学、arXiv:2410.18613v1、2024年10月24日。
4.「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」、Jacob Devlin他著、arXiv:1810.04805v2、2019年5月24日に改訂。
5.「Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective」、Zhiyuan Zeng他著、arXiv:2412.14135、2024年12月18日。
6.「Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification」、Weijiang Li他著、『Neurocomputing Vol 387』、2020年4月28日。
7.「Parallel Scheduling Self-attention Mechanism: Generalization and Optimization」、Mingfei Yu、Masahiro Fujita著、arXiv:2012.01114v1、2020年12月2日。
8.「Exploring Self-attention for Image Recognition」、Hengshuang Zhao、Jiaya Jia、Vladlen Koltun著、IEEE/CVF conference on computer vision and pattern recognition議事録、2020年。