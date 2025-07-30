その核となるコサイン類似度は、2つのベクトルの間の角度のコサインを計算することによって、2つのベクトルがどの程度整合しているかを測定します。

文書比較のような現実世界の用途では、データは多次元空間内のベクトルとして表現されます。各次元は特定の単語、属性、またはアクションを表す場合があり、その次元の値は、その項目がどれほど目立っているか、または重要であるかを反映します。

コサイン類似度は、以下の方法で計算できます。

内積を見つける：各ベクトルの対応する値を乗算し、その結果を足し合わせます。これは、ベクトルがどの程度方向的に揃っているかを捉えます。



大きさを決定する：各ベクトルの大きさ（または長さ）は、その二乗成分の合計の平方根を使用して計算されます。



コサイン類似度を計算する：コサイン類似度は、点積（ステップ1）をベクトルの大きさの積（ステップ2）で割ることで求められます。結果は、-1と1の間のコサイン類似性スコアです。

数式は次のように表すことができます。

コサイン類似度 = (A · B) / (||A|| × ||B||)

説明：

A · B はベクトルAとBの内積

はベクトルAとBの内積 ||A|| はベクトルAの大きさ（長さ)

はベクトルAの大きさ（長さ) ||B||はベクトルBの大きさ

結果として求められるスコアは、-1から1の範囲に収まります。

さらに明確な説明をするにあたり、「王」と「女王」という2つの言葉を想像してください。

どちらも類似した文脈で使用されます。各単語は、LLMによって処理されると、何百万もの文における用法に基づいて用語の意味を捉えるベクトル埋め込みに変換されます。「王」と「女王」はどちらも「王室」、「王座」、「君主」などの単語の近くに頻繁に出現するため、結果として得られる埋め込みはほぼ同じ方向を指します。

次に3つ目の単語「リンゴ」について考えてみましょう。同じ文書に登場することもありますが、「果物」「果樹園」または「さくさく」といった用語とより頻繁に関連付けられます。そのベクトルはほぼ反対方向を向いているため、コサイン類似度は低くなります。グラフにすると、「王」と「女王」の矢印はほぼ横並びになり、「リンゴ」の矢印は大きく異なる角度で飛び出します。

パフォーマンスを最適化し、関連する一致をより速く取得できるようにするために、多くの組織ではこれらの埋め込みを特殊なベクトル・データベースに保管します。ベクトル・データベースは、高次元ベクターのインデックスを作成して検索を改善し、最も類似した結果を返すように設計されたツールです。