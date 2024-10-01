エンコーダーと同様に、デコーダーも自己注意層とフィードフォワード・ネットワークで構成されています。これらの間に、デコーダーは複数のヘッド注意マスキング層を含みます。これは、エンコーダーとデコーダーの違いを示します。エンコーダーは文脈化されたトークンの埋め込みを同時に生成しますが、デコーダーのマルチヘッド注意層は自己回帰マスキングを利用します。

まず、デコーダーはエンコーダーからコンテキスト・ベクトルを受け取ります。デコーダーは、これらの位置埋め込みを使用して、各トークンの注意スコアを計算します。これらの注意スコアは、入力シーケンス内の各トークンが後続のトークンにどの程度影響を与えるかを決定します。言い換えれば、出力シーケンスを生成する際、各トークンが他のトークンの決定に与える重みを決定するのです。

ただし、この重要な特徴の一つは、デコーダーが同じシーケンスにおいて先行するトークンを決定するために将来のトークンを使用しない点です。各トークンの生成するアウトプットは、前のトークンにのみ依存します。つまり、トークンのアウトプットを生成する際、デコーダーは現在のトークンの後の単語またはトークンを考慮しません。多くの人工知能技術と同様に、これは人間が情報、特に言語を処理する方法に関する従来の理解を模倣することを目的としています。この情報処理のアプローチは自己回帰と呼ばれます。7