Kami akan mengilustrasikan proses vektorisasi dengan memvektorisasi sebuah korpus kecil kalimat dalam bahasa Inggris: "the cat sat on the mat”, “the dog played in the yard”, dan “birds chirped in the trees”.

Langkah pertama untuk membangun penyematan vektor adalah membersihkan dan memproses kumpulan data mentah. Ini mungkin melibatkan penghapusan kebisingan dan standardisasi teks. Untuk contoh kami, kami tidak akan melakukan pembersihan apa pun karena teks sudah dibersihkan dan distandardisasi.

Berikutnya, model penyematan dipilih untuk dilatih pada kumpulan data. Model penyematan yang terlatih digunakan untuk menghasilkan penyematan untuk setiap titik data dalam kumpulan data. Untuk data teks, model penyematan sumber terbuka yang populer meliputi Word2Vec, GloVe, FastText atau model berbasis transformator terlatih seperti BERT atau RoBERTa2.

Sebagai contoh kita, kita akan menggunakan Word2Vec untuk menghasilkan penyematan kita.