言語処理は、パーサーと検索サーバーによって処理が異なります。
言語処理のために、パーサーは言語とロケールを区別しません。ただし、ユーザーが複数言語の文書を含むコレクションを検索する場合、検索サーバーは、検索結果を特定の言語またはロケールに限定できるようにします。
例えば、英語の文書のメタデータで、文書ロケールに en_US が指定された場合、 この文書は英語の文書 (en) として、また英語の米国ロケールを使用する文書 (en_US) として索引付けされます。こうした索引付けにより、 数字、日付、時刻などのロケール固有情報を正しく表すことができます。このコレクションを検索すると、en の文書を検索しても、en_US の文書を検索しても、この文書を検出できます。
文書が en などの言語コードのみによって索引付けされる場合、 文書は、ロケールではなく言語コードのみによって索引付けされます。例えば、このコレクションで en_US の文書を検索した場合、文書は検出されません。
en= 英語
sq= アルバニア語
az= アゼルバイジャン語 - ラテン文字
bg= ブルガリア語
be= ベラルーシ語
ca= カタロニア語
hr= クロアチア語
cs= チェコ語
da= デンマーク語
nl= オランダ語
et= エストニア語
fi= フィンランド語
fr= フランス語
de= ドイツ語
el= ギリシャ語
hu= ハンガリー語
is= アイスランド語
id= インドネシア語
in= インドネシア語
it= イタリア語
kk= カザフ語
lv= ラトビア語
lt= リトアニア語
lo= ラオス語
mk= マケドニア語
ms= マレー語
mt= マルタ語
no= ノルウェー語
nb= ノルウェー語 (ブークモール)
pl= ポーランド語
pt= ポルトガル語
ro= ルーマニア語
ru= ロシア語
sr= セルビア語 (キリル文字)
sh= セルビア語 (ラテン文字)
sk= スロバキア語
sl= スロベニア語
es= スペイン語
sv= スウェーデン語
tr= トルコ語
uk= ウクライナ語
cy= ウェールズ語
zh-CN= 中国語 (簡体字)
zh-TW= 中国語 (繁体字)
ja= 日本語
ko= 韓国語
ar= アラビア語
as= アッサム語
bn= ベンガル語
gu= グジャラート語
iw= ヘブライ語
he= ヘブライ語
hi= ヒンディ語
kn= カンナダ語
ml= マラヤーラム語
mr= マラーティー語
or= オリヤー語
pa= パンジャブ語
ta= タミール語
te= テルグ語
th= タイ語
ur= ウルドゥー語
vi= ベトナム語
システムは、これらの言語の多くを自動的に検出でき、 プレーン・テキスト文書で使用されるコード・ページを自動的に検出できます。クローラーの構成時に、使用する明示的な言語またはコード・ページを指定する場合は、言語およびコード・ページの自動検出を使用不可にすることができます。