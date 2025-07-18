セマンティック・チャンクでは、埋め込みモデルを使用して各文の数学的表現を作成します。次に、チャンク化アルゴリズムは、意味的に類似した文のチャンクを作成し、新しいチャンクを作成して検知します。セマンティック・チャンキングは、Greg KamradtがGithubで議論した手法とされています。1

セマンティックチャンクはコンテキスト認識であり、文書の自然な流れと意味を中心にチャンクを構築します。トピックが変更されると、新しいチャンクが作成されます。ただし、段落で複数のトピックについて説明している場合や、チャンク化のしきい値が文書の種類や構造に応じて適切に設定されていない場合に問題が発生する可能性があります。

セマンティックチャンクは、再帰的および固定サイズのチャンク化よりも計算量が多く、テキスト内のセマンティックコンテンツを識別するために高度なモデルが必要です。