ベクトル埋め込みとは

共同執筆者

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

ベクトル埋め込みとは何か

ベクトル埋め込みは、単語や画像などの非数学的データを含むさまざまな種類のデータを、機械学習（ML）モデルが処理できる数値の配列として表現するデータ・ポイントの数値表現です。

人工知能（AI）モデルは、単純な線形回帰アルゴリズムからディープラーニングに使用される複雑なニューラル・ネットワークまで、数学的ロジックで動作します。テキスト、音声、画像などの非構造化データを含め、AIモデルが操作するすべてのデータは数値で表現する必要があります。ベクトル埋め込みは、非構造化データ・ポイントを、そのデータの元の意味を引き続き表す数値の配列に変換する方法です。

現実世界の特徴に意味のある形で対応するデータ・ポイントのベクトル表現をアウトプットするようにモデルをトレーニングすると、ベクトル埋め込みが互いにどのように関連しているかについて有用な仮定を立てることができます。直感的には、現実世界の2つのデータ・ポイントが類似しているほど、それぞれのベクトル埋め込みも類似するはずです。2つのデータ・ポイントによって共有される特徴または品質は、両方のベクトル埋め込みに反映される必要があります。異なるデータ・ポイントには異なるベクトル埋め込みが必要です。

このような論理的仮定を前提として、ベクトル埋め込みは、数値表現を比較、変換、結合、並べ替え、またはその他の方法で操作する数学的演算を通じて、実世界で有用なタスクを実行するモデルへのインプットとして使用できます。

データ・ポイントをベクトルとして表現すると、異なるタイプのデータの相互運用性も可能になり、同じ埋め込み空間で表現することにより、異なるデータ形式間の一種の共通語として機能します。例えば、スマートフォンの音声アシスタントは、ユーザーの音声入力をベクトル埋め込みに「翻訳」し、そのベクトル埋め込みを使用して、その入力の自然言語処理（NLP）を行います。

したがって、ベクトル埋め込みはほぼすべての最新の機械学習の基盤となり、NLPやコンピューター・ビジョンの分野で使用されるモデルを強化し、生成AIの基本的な構成要素として機能します。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ベクトルとは

ベクトルは、テンソルという大きなカテゴリーに属します。機械学習（ML）において「テンソル」は、n次元空間の数値の配列、あるいは数値の配列の配列の総称として使われ、データの数学的な帳簿のように機能します。

特定の単語は、MLコンテキストでは日常言語や他の数学的な設定とは異なる方法で使用されることに注意すると役立ちます。例えば、「ベクトル」自体は、MLよりも物理学においてより具体的な意味を持ち、通常は大きさと方向の両方を持つ量を指します。

同様に、「次元」という言葉も、MLではコンテキストに応じて異なる意味を持ちます。テンソルを説明する場合、テンソルに含まれる配列の数を指します。ベクトルを説明する場合、ベクトルに含まれる構成要素つまり個々の数値の数を指します。「順序」や「程度」などの類似の用語は、曖昧さを減らすのに役立ちます。

スカラーは、1つの数値を含む0次元のテンソルです。たとえば、気象データをモデリングするシステムは、1日の最高気温（摂氏）をスカラー形式でのように表す場合があります。33 .
ベクトルは、1次元（または1次か1階）のテンソルであり、同じタイプを持つデータの複数のスカラーを含んでいます。例えば、天気モデルである日の最低気温、平均気温、最高気温をベクトル形式で表すと次のようになります： (25, 30, 33) 。スカラーの各構成要素はベクトルの特徴、つまり次元であり、その日の天気の特徴を表しています。
タプルは、複数の種類のデータのスカラーを含む1次テンソルです。例えば、人物の名前、年齢、身長（インチ単位）は、タプル形式で次のように表されます： (Jane, Smith, 31, 65) .
行列は、同じタイプのデータの複数のベクトルを含む2次元（または第2階または第2次テンソルです。各行または各列がベクトルであるスカラーの2次元グリッドとして直感的に視覚化できます。例えば、この気象モデルは6月全体を3x30の行列として表し、各行は各日の最低気温、平均気温、最高気温を表す特徴ベクトルになります。
コンピューター・ビジョン・アルゴリズムでカラー画像を表すために使用される3次元テンソルのような3次元以上のテンソルは、多次元配列 または N次元テンソルと呼ばれます。

さまざまな簡単な変換を行列やその他のn次元テンソルに適用して、それらに含まれるデータをベクトル形式で表現することもできます。例えば、4x4行列は16次元ベクトルにフラット化できます。4x4ピクセル画像の3次元テンソルは48次元のベクトルにフラット化できます。最新のMLでは、埋め込みは主にベクトル形式です。

ベクトルと埋め込み：

MLではこれらの用語は同じ意味で使用されることが多いですが、「ベクトル」と「埋め込み」は必ずしも同じものではありません。

埋め込みとは、MLアルゴリズムが処理できる方法でデータの関連する特性を捉えたデータの数値表現です。データはn次元空間に埋め込まれます。

理論的には、データは特にベクトルとして埋め込まれる必要はありません。例えば、一部のタイプのデータはタプル形式で埋め込むことができます。¹しかし実際には、最新のMLでは埋め込みは主にベクトルの形をとります。

逆に、物理学などの他のコンテキストにおけるベクトルは、必ずしも埋め込みではありません。しかし、MLでは、ベクトルは通常埋め込みであり、埋め込みは通常ベクトルです。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

ベクトル埋め込みの仕組み

ベクトル埋め込みは、単語、文、画像などのデータ・ポイントを、そのデータ・ポイントの特性、つまり特徴を表す数値のn次元配列に変換します。これは、手元のタスクに関連する大規模なデータセットで埋め込みモデルをトレーニングするか、事前トレーニング済みのモデルを使用することによって実現されます。

ベクトル埋め込みを理解するには、いくつかの重要な概念を説明する必要があります。

ベクトル埋め込みのデータの表現方法。
ベクトル埋め込みの比較方法。
モデルを使用したベクトル埋め込みの生成方法。

ベクトル埋め込みのデータ表現方法

機械学習では、データの「次元」は、物理空間の馴染みのある直感的な次元を指すものではありません。ベクトル空間では、各次元はデータの個々の特徴に対応します。これは、長さ、幅、深さが物理空間内のオブジェクトの各特徴であるのと同じです。

ベクトル埋め込みは通常、高次元データを扱います。実際には、非数値情報のほとんどは高次元です。例えば、MNISTデータ・セットの手書き数字の小さくて単純な28x28ピクセルの白黒画像であっても、各次元がグレースケール値が0（黒）から1（白）の範囲にある個々のピクセルに対応する784次元のベクトルとして表すことができます。

ただし、データのすべての次元に有用な情報が含まれているわけではありません。MNISTの例では、実際の数字自体は画像のごく一部しか表していません。残りは空白の背景、つまり「ノイズ」です。したがって、「画像の784種類の異なる特徴を表現する」と言うよりも、「画像の表現を784次元の空間に埋め込む」と言った方が正確でしょう。

つまり、高次元データの効率的なベクトル埋め込みには、多くの場合、ある程度の次元削減、つまり、無関係な情報や冗長な情報を省略した低次元空間への高次元データの圧縮が必要になります。

次元削減によりモデルの速度と効率は向上しますが、ベクトルが小さくなると数学演算に必要な計算リソースが少なくなるため、精度や精密度とのトレードオフが発生する可能性があります。また、トレーニング用データの過剰適合リスクを軽減するのにも役立ちます。オートエンコーダー、畳み込み、主成分分析、T分布確率的近傍埋め込み（t-SNE）などのさまざまな次元削減手法は、異なるデータ・タイプとタスクに最適です。

画像ベクター・データの次元は比較的客観的かつ直感的ですが、言語の意味や文脈上の関係など、一部のデータ・モダリティーに関連する特徴を決定することは、より抽象的または主観的です。このような場合、ベクトル埋め込みの次元によって表される特定の特徴は、手動の特徴エンジニアリングを通じて明確にできます。または、ディープラーニングの時代ではより一般的に、正確な予測を行うためにモデルをトレーニングするプロセスを通じて暗黙的に決定されます。

ベクトル埋め込みを比較するには

ベクトル埋め込みの中心的なロジックは、類似したデータ・ポイントのn次元埋め込みがn次元空間内で密接にグループ化される必要があるというものです。ただし、埋め込みには数十、数百、さらには数千の次元が含まれる場合がありますが、これは、ものが互いに「近い」ことを直感的に視覚化できる2次元または3次元の空間をはるかに超えています。

代わりに、複数の数学的尺度の1つを使用して、異なるベクトル埋め込みの相対的な類似性または近接性を推測できます。特定の状況における類似性の最適な測定方法は、データの性質と比較の目的によって大きく異なります。

ユークリッド距離は、異なるベクトルの対応する点間の平均直線距離を測定します。2つのn次元ベクトルaとbの差は、まずそれぞれの対応する要素間の差の二乗を加算して計算します。つまり(a₁–b₁)² + (a₂–b₂)² + ... (a_n–b_n)² となり、次にその合計の平方根を取ります。ユークリッド距離は大きさに敏感なので、サイズや数などを反映するデータに役立ちます。値の範囲は0（同一ベクトルの場合）から∞までとなります。
コサイン距離はコサイン類似度とも呼ばれ、2つのベクトル間の角度のコサインの正規化された測定値です。コサイン距離の範囲は-1から1で、「1」は同一のベクトル、「0」は直交（または無関係）のベクトル、「-1」は完全に反対のベクトルを表します。コサイン類似度は、ベクトルの大きさを自然に正規化し、ユークリッド距離よりもトレーニング用データ内の単語の相対頻度の影響が少ないため、NLPタスクで広く使用されています。
ドット積は、代数的に言えば、各ベクトルの対応する成分の積の合計です。幾何学的に言えば、これはコサイン距離の非正規化バージョンであり、頻度や大きさも反映します。

一般的なベクトル類似性メトリクスの数式と視覚化。

埋め込みモデル

スタンドアロンの埋め込みモデルは、事前トレーニング済み製品である場合もあれば、特定のタスクまたはトレーニング用データに基づいて最初からトレーニングされる場合もあります。通常、各形式のデータは特定のニューラル・ネットワーク・アーキテクチャーから恩恵を受けますが、ほとんどの場合、特定のタスクに対する特定のアルゴリズムの使用は明示的なルールではなくベスト・プラクティスです。

場合によっては、埋め込みプロセスは、より大きなニューラル・ネットワークの統合された一部になります。例えば、画像セグメンテーションなどのタスクに使用されるエンコーダー／デコーダー畳み込みニューラル・ネットワーク（CNN）では、ネットワーク全体を最適化して正確な予測を行うには、エンコーダー層をトレーニングして、インプット画像の効果的なベクトル埋め込みをアウトプットする必要があります。

事前トレーニング済みモデル
多くのユースケースや研究分野において、事前トレーニング済みモデルは、カスタム・モデルやベクトル・データベースへのインプットとして使用できる便利な埋め込みを提供できます。このようなオープンソース・モデルは、フューショット学習やゼロショット学習など、多くのダウンストリーム・タスクに役立つ埋め込みを学習するために、大量で広範なトレーニング・データ・セットでトレーニングされます。

テキスト・データの場合、Google社のWord2Vecやスタンフォード大学のGlobal Vectors（GloVe）などの基本的なオープンソースの単語埋め込みモデルを最初からトレーニングできますが、WikipediaやCommon Crawlなどの公開テキスト・データで事前トレーニングされたバージョンも提供されています。同様に、BERTやその多くのバリエーションなど、埋め込みによく使用されるエンコーダー／デコーダー大規模言語モデル（LLM）は、膨大な量のテキスト・データで事前トレーニングされています。

コンピューター・ビジョン・タスクの場合、ImageNet、ResNet、VGGなどの事前トレーニング済みの画像分類モデルは、最終的な完全に接続された予測レイヤーを削除するだけで、埋め込みをアウトプットするように適応できます。

カスタム埋め込みモデル
一部のユースケース、特に難解な概念やデータの斬新なクラスを含むユースケースでは、事前トレーニング済みモデルの微調整や、完全にカスタム化された埋め込みモデルのトレーニングが役立ちます。

法律および医療の分野は、より汎用的なモデルのトレーニング用データには含まれていない可能性が高い、難解で高度に専門化された語彙、知識ベース、または画像に依存することが多い分野の代表的な例です。領域固有の例をさらにトレーニングすることで、事前トレーニング済みモデルの基本知識を補足すると、モデルがより効果的な埋め込みをアウトプットできるようになります。

これは、特注のニューラル・ネットワーク・アーキテクチャーを設計するか、既知のアーキテクチャーを最初からトレーニングすることによっても実現できますが、そのためには、ほとんどの組織や愛好家には入手不可能なリソースや組織的知識が必要になります。

画像のベクトル埋め込み

画像の埋め込みは、画像のピクセル値をベクトル成分に対応させることで、視覚情報を数値ベクトルに変換します。これらは通常CNNに依存していますが、近年ではトランスフォーマーベースのニューラル・ネットワークを利用するコンピューター・ビジョン・モデルが増えています。²

一般的なRGBカラー・スキームを持つ画像は、3次元行列として数値的に表現されます。これらの3つの行列は、各ピクセルの赤、緑、青のそれぞれの値に対応します。RGB画像は通常8ビットです。つまり、ピクセルの各カラー値は0から256（または 2⁸）の範囲になります。前述のように、白黒画像は、各ピクセルが0から1までの値を持つ2次元のピクセル行列として数値的に表現されます。

ピクセルの3次元マトリックスとして表現される画像

畳み込みでは、カーネルと呼ばれる2次元の数値フィルターを使用して、画像から特徴を抽出します。関連する特徴の抽出に最も役立つカーネルの重みは、モデルのトレーニング中に学習可能なパラメーターです。これらの畳み込みにより、画像の特徴マップが生成されます。

必要に応じて、配列の外側の行と列にゼロの層を追加して、インプットの元のサイズを維持するために、パディングが使用されます。逆に、最小値、最大値、平均値のみを取得して視覚的特徴を要約するプーリングは、次元をさらに削減するために使用できます。

最後に、圧縮された表現はベクトルに平坦化されます。

画像検索

画像埋め込みの直感的な応用例の1つが画像検索です。これは、画像データをインプットとして受け取り、同様のベクトル埋め込みを持つ他の画像を返すシステムで、写真から植物の種を識別するスマートフォン用アプリなどがこれにあたります。

より複雑な実行方法は、テキストをインプットとして受け取り、そのテキストに関連する画像を返す、マルチモーダル画像検索です。これは、言語モデルからテキスト埋め込みを取得し、それを別のコンピューター・ビジョン・モデルへのインプットとして使用することによっては実現できません。その代わり、2つの埋め込みモデルは、相互に相関するように明示的にトレーニングする必要があります。

画像とテキストの埋め込みの両方に使用される代表的なアルゴリズムの1つが、もともとOpenAIによって開発された 対照言語画像事前トレーニング（CLIP）です。CLIPは、インターネットから取得した4億件を超える画像とキャプションのペアからなる膨大なラベルなしデータセットでトレーニングされました。これらのペアリングは、画像エンコーダーとテキストエンコーダーを一緒に最初からトレーニングするために使用され、コントラスト損失を使用して、画像の埋め込みと対応するキャプションの埋め込みの間のコサイン類似性を最大化しました。

画像生成

画像埋め込みのもう1つの重要な用途は、画像生成、つまり新しい画像の作成です。

画像の埋め込みから新しい画像を生成する方法の1つは、変分オートエンコーダー（VAE）です。VAEは、インプットの2つの異なるベクトル埋め込み（平均のベクトルと標準偏差のベクトル）をエンコードします。これらのベクトル埋め込みが表す確率分布からランダムにサンプリングすることにより、VAEはデコーダー・ネットワークを使用してそのインプットのバリエーションを生成できます。

特に近年の埋め込みベースの画像生成手法の主流は、前述のCLIPアルゴリズムです。DALL-E、Midjourney、Stable Diffusionなどの画像合成モデルは、テキスト・プロンプトをインプットとして受け取り、CLIPを使用してテキストのベクトル表現を埋め込みます。次に、同じベクトル埋め込みを拡散モデルが使用して、基本的に新しい画像を再構築します。

NLPのベクトル埋め込み

テキストの埋め込みはそれほど単純ではありません。意味論的意味、可変的な含意、単語とフレーズ間の文脈的関係などの抽象的な概念を数値で表現する必要があります。画像の埋め込みがピクセル値でビジュアルを表現するのと同じように、単語を文字で表現するだけでは、意味のある埋め込みは得られません。

ほとんどのコンピューター・ビジョン・モデルは従来の教師あり学習を使用してトレーニングされますが、NLPの埋め込みモデルでは、さまざまなコンテキストにおける言語の多くの潜在的な意味を適切に捉えるために、非常に膨大な量のトレーニング・データを使用した自己教師あり学習が必要です。

結果として得られる埋め込みは、言語翻訳から対話型チャットボット、ドキュメント要約、質問応答サービスまで、生成AIに一般的に関連付けられている多くのタスクの実行を強化します。

テキスト埋め込みモデル

テキスト・データのベクトル埋め込みを生成するために使用されるモデルは、実際のテキストを生成するために使用されるモデルと同じではないことがよくあります。

OpenAIのChatGPTモデルやMetaのLlamaモデルなど、テキスト生成やその他の生成AIタスクによく使用される人気のLLMは、デコーダーのみの自己回帰モデルであり、因果言語モデルとも呼ばれます。トレーニングでは、特定のテキスト・サンプルの冒頭が提示され、シーケンスの最後まで次の単語を継続的に予測することが求められます。これは、首尾一貫したテキストを生成する方法を学習するのに適していますが、有用なスタンドアロンのベクトル埋め込みを学習するには最適ではありません。

代わりに、テキスト埋め込みは通常、2018年に初めてリリースされたBERT（Bidirectional Encoder Representations from Transformers）などのマスクされた言語モデルに依存します。トレーニングでは、これらのエンコーダー／デコーダー・モデルに、特定の単語がマスクまたは非表示になっているテキスト・シーケンスが提供され、空白を埋めるタスクが与えられます。この演習では、特定の単語や文に関する情報と、それが周囲の文脈とどのように関連しているかをより適切に捉えた埋め込みを評価します。Word2vecは、より単純な2層ニューラル・ネットワーク・アーキテクチャーですが、同様のトレーニング・タスクを追求します。

2024年6月現在、BERTはHugging Faceで最も人気のある言語モデルで、前月だけで6,000万回以上ダウンロードされています。³いくつかの主要なBERTバリエーションは、特定の種類の言語埋め込みとシナリオに合わせて調整されています。

SBERT：センテンスBERTやセンテンス・トランスフォーマーとも呼ばれるSBERTは、適応済みSiameseニューラル・ネットワーク構造を持つBERTのバリエーションであり、センテンスの埋め込みをエンコードする能力を向上させるためにセンテンスのペアに対して微調整されています。
DistilBERT：BERTベースモデルの知識蒸留によって作成された軽量のBERTバリアントで、BERTのパフォーマンスの95％以上を維持しながら、60％高速に動作する小型モデルです。⁴
RoBERTa：堅牢に最適化されたBERT事前トレーニング・アプローチの略であるRoBERTaは、BERTトレーニング手順を改良することにより、パフォーマンスを最適化しました。

テキスト埋め込みの種類

ベクトル埋め込みは、さまざまな自然言語データを表すために使用できます。

単語埋め込み
単語埋め込みは、個々の単語の意味だけでなく、それらの単語が頻繁に共起する他の単語との文脈上の関係も捉えることを目的としています。そうすることで、単語埋め込みは新しい文脈や、まれな単語やこれまで見たことのない単語にもうまく一般化できます。

人気の単語埋め込みモデルであるGloVeは、「グローバル単語共起行列」でトレーニングされ、特定の単語が互いに近い位置で使用される頻度から意味と意味関係を推測します。例えば、「氷」と「蒸気」が「水」とほぼ同じ頻度で一致するのに対し、「固体」と「気体」とは非常に異なる頻度で一致することから、意味を導き出すことができます。⁵

単語埋め込みベクトルの次元がこれらの関係を暗黙的に捉える方法により、便利かつ直感的な方法で数学的に操作できるようになります。適切に構成された単語埋め込みスキームでは、「王」のベクトルから「男」のベクトルを減算し、「女」のベクトルを追加すると、基本的に「女王」のベクトルが生成されます。

文の埋め込み
文の埋め込みでは、個々の単語ではなく、フレーズや文全体の意味が埋め込まれます。これらは通常、SBERTまたはその他の文変換器を使用して生成されます。

文の埋め込みでは、検索エンジンや質問応答アプリケーションで使用するために、ユーザー・クエリーの表現を埋め込むことができます。
機械翻訳では、ある言語での文のベクトル埋め込みを使用して、同様のベクトル埋め込みを持つ別の言語で文をアウトプットできます。
センテンス埋め込みはセンチメント分析でよく使用されます。分類器は、感情の各カテゴリーのラベル付けされた例でトレーニングするか、教師あり学習を使用してトレーニングし、ベクトルの埋め込みを各クラスの学習された埋め込みと一致させることで新しいサンプルを分類できます。感情分析は、特定の文の埋め込みを特定のカテゴリーの単語の埋め込みと比較するゼロショット学習でも実行可能です。

ドキュメントの埋め込み
ドキュメントの埋め込みは、検索エンジンやベクター・データベースでインデックスを作成するためにドキュメントやWebページを分類するためによく使用されています。ドキュメント埋め込みの一般的なモデルには、BERTバージョン、Doc2vec（Word2vecモデルの拡張）、またはInstructor（ibm.com外部へのリンク）など、その他のオープンソース埋め込みモデルがあります。

その他のベクター埋め込み

特に生成AIのユースケースでは、画像データとテキスト・データが最も注目される傾向がありますが、さまざまなデータ・モダリティーがベクトル埋め込みの恩恵を受けることができます。

音声埋め込みは、音声アシスタント、楽曲推薦システム、Shazamのような音楽認識システムに至るまで、多種多様なアプリケーションで使用されています。それらは、波形データの数値特性を通じて音を表します。音声は、リカレント・ニューラル・ネットワーク（RNN）、CNN、またはトランスフォーマー・ベースのアーキテクチャーを使用して埋め込むことができます。
製品の埋め込みは、電子商取引プラットフォームのレコメンデーション・システムを強化するためによく使用されます。これらは通常、教師なし学習アルゴリズムで生成されます。
グラフの埋め込みは、SNSや生物学的システムなどの複雑な関係構造をモデル化して表現するために使用できます。グラフ埋め込みベクトルの次元は、システムのさまざまなノードとエッジがどのように接続されているかを表します。