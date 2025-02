다음과 같은 작은 문장 말뭉치를 벡터화하여 벡터화 과정을 설명하겠습니다. “the cat sat on the mat”, “the dog played in the yard”, “birds chirped in the trees”.

벡터 임베딩을 구축하는 첫 번째 단계는 원시 데이터 세트를 정리하고 처리하는 것입니다. 여기에는 노이즈 제거 및 텍스트 표준화 작업이 포함될 수 있습니다. 이 예에서는 텍스트가 이미 정리되고 표준화되어 있으므로 정리 작업은 수행하지 않습니다.

다음으로 데이터 세트에서 학습할 임베딩 모델을 선택합니다. 학습된 임베딩 모델은 데이터 세트의 각 데이터 포인트에 대한 임베딩을 생성하는 데 사용됩니다. 텍스트 데이터의 경우 널리 사용되는 오픈 소스 임베딩 모델에는 Word2Vec, GloVE, FastText 또는 BERT나 RoBERTa 같은 사전 학습된 트랜스포머 기반 모델이 있습니다.2

이 예에서는 Word2Vec을 사용하여 임베딩을 생성합니다.