「the cat sat on the mat(猫がマットの上に座った)」、「the dog played in the yard(犬が庭で遊んだ)」、「birds chirped in the trees(鳥が木でさえずった)」など、小さなコーパスの文章をベクトル化することで、ベクトル化プロセスを説明しましょう。

ベクトル埋め込みを構築するための最初のステップは、未加工データ・セットをクリーニングして処理することです。これには、ノイズの除去やテキストの標準化が含まれる場合があります。この例では、テキストは既にクリーニングされ、標準化されているため、クリーニングは行いません。

次に、データ・セットでトレーニングするための埋め込みモデルを選択します。トレーニングされた埋め込みモデルは、データ・セット内の各データ・ポイントの埋め込みを生成するために使用されます。テキスト・データの場合、一般的なオープンソースの埋め込みモデルには、Word2Vec、GloVe、FastText、またはBERTやRoBERTaのような事前にトレーニングされた変換ベースのモデルが含まれます2。

この例では、Word2Vecを使用して埋め込みを生成します。