カスタマイズ
効果的にカスタマイズするために、body text tagger によって実行されるステップを理解しておくと有用です。
- ノードは、<A> (リンク) タグ密度、タイトル・ケース・テキスト密度、および句読点密度など、さまざまなテキスト特性と構造特性について分析されます。コンバーターで設定されている重みづけに基づいて、各ノードには適合性の数値が割り当てられます。以下のカテゴリーの重みづけをカスタマイズに使用できます。
- Link density: このノードで、<A> タグの中に含まれているすべてのテキストの割合。低い方が望ましいです。
- Tag density: このノードで、このノードの直下にあるのではなく、その他すべてのタグの中に含まれているすべてのテキストの割合。低い方が望ましいです。
- Title case density: このノードで、タイトル・ケースになっているすべてのテキストの割合。単語の先頭文字のみが大文字になっています。例: "This Is Title Case"。低い方が望ましいです。
- Punctuation density: このノードでの句読点のテキスト文字の割合。空白文字、文字、数字ではないものです。高い方が望ましいです。
- Word count: このノードにある単語数。高い方が望ましいです。
- Node depth: 文書全体の HTML 構造の中のこのノードの深さ。深い方が望ましいです。
特定のカテゴリーの重要度を高くするには、その重みづけをさらに高い数値に設定します。重要度を低くするには、その重みづけをより低い数値に設定します。重みづけ 0 を指定すると、そのカテゴリーは無視されます。重みづけは相互の相対的な関係においてのみ重要であるため、重みづけの合計は重要ではありません。合計が 1 と等しくなる必要はありません。
- 前のステップで割り当てられた適合性の数値は、文書全体に含まれるテキストの割合に基づいて調整されます。例えば、<BODY> タグに文書内の 100% のテキストが含まれていて、個々の <P> タグに 20% が含まれているとします。最終的な適合性に対するこの割合の影響は、「Document-word-percentage postweight」です。0.25 の場合、最終的な適合性は、文書の単語の割合の 25% と元の適合性の数値の 75% として計算されます。文書の単語の割合を無視して、元の適合性の数値だけから本文テキストを選択する場合は、これを 0 に設定します。
- 前回の計算の後で適合性が最も高いノードが、メインの本文テキストのコンテナーとして選択されます。
- 最も高い子の「Minimum child fitness ratio」よりも適合性が低いコンテナー・ノードの直接の子は、子リストの最初と最後から除去されます。これにより、品質の低いヘッダーやフッターなどが除去されます。例えば、コンテナーに適合性 1.0 の子があり、「Minimum child fitness ratio」が 0.66 である場合、最小値を満たす子が検出されるまで、適合性が 0.66 より低い子はコンテナー・ノードの最初と最後から除去されます。
- これで分析は完了です。コンテナー・ノードが保持する内容が「Minimum percentage of text to tag as "high quality"」未満である場合、コンバーターは、その結果を無視して、文書全体に本文テキストのタグを付けます。