Identification de la langue

Avant que la segmentation par mot et par phrase, la normalisation des caractères ou la lemmatisation puissent avoir lieu, la langue du document source doit être déterminée.

Le processus linguistique détecte la langue d'un document source lors de l'analyse syntaxique et de l'indexation et non lors du traitement des requêtes.

Vous pouvez spécifier si vous souhaitez utiliser la détection automatique de la langue lorsque vous configurez des moteurs de balayage individuels. Vous pouvez également spécifier la langue à utiliser si l'analyseur syntaxique ne parvient pas à déterminer la langue source. Si vous n'activez pas la détection automatique de la langue pour un moteur de balayage, l'analyseur syntaxique utilise la langue que vous spécifiez. Si vous ne spécifiez pas de langue, il utilise l'anglais.

Vous pouvez limiter le nombre de langues renvoyées par la détection automatique de la langue lorsque vous créez la collection. Si un document est dans une langue que vous n'avez pas sélectionnée pour la collection, le premier langage sélectionné est utilisé pour l'analyse syntaxique du document. Vous pouvez sélectionner les langues suivant leur ordre de priorité lorsque vous créez une collection.

Par exemple, si vous spécifiez que vous souhaitez utiliser l'anglais et le français lorsque vous créez la collection et que la détection automatique de la langue identifie un document comme étant en allemand, l'analyseur syntaxique utilise l'anglais lorsqu'il traite le document pour l'index.

Les documents pour lesquels il n'existe aucun dictionnaire spécifique à une langue seront traités à l'aide d'une technologie linguistique de base, telle que la segmentation à l'aide d'espaces ou la segmentation n-gram.

Lorsque vous effectuez une recherche dans une collection, vous pouvez restreindre les résultats de la recherche aux documents rédigés dans une langue spécifique. Par exemple, si vous recherchez des documents sur Jacques Chirac dans une collection de documents multilingues, vous pouvez limiter les résultats de la recherche aux seuls documents écrits en français.

La technologie de détection de langue est la plus adaptée pour les documents en une seule langue. Si un document est rédigé en plusieurs langues, une tentative de détection de la langue dominante du document est effectuée. Toutefois, les résultats de l'analyse ne sont pas toujours satisfaisants.