Elimination des doublons

L'élimination des doublons est effectuée à plusieurs emplacements du logiciel. Le groupement peut être configuré pour gérer les doublons via la déduplication par clé et la réalisation d'un contrôle de similarité des doublons proches. Ces options sont décrites à la section Configuration du groupement de la documentation. Par défaut, le moteur de recherche tente de supprimer les doublons de deux manières. Tout d'abord, en procédant au filtrage des doublons exacts dans le moteur d'exploration. Puis, en procédant à l'élimination des doublons proches dans le service de requête (en utilisant les informations générées lors de l'indexation).

Un algorithme probabiliste trouve les doublons proches du moteur de recherche. Au moment de l'indexation, une petite signature est calculée pour chaque document, et au moment de la recherche, chaque document potentiellement extrait est vérifié pour savoir s'il s'agit d'un doublon d'un document mieux classé. Cela signifie que si deux documents sont considérés comme des doublons, le document le mieux classé sera toujours renvoyé pour toute requête.

L'algorithme fonctionne en utilisant toutes les séquences uniques des mots Options d'indexation dans le document (si Options d'indexation a la valeur 2, la valeur par défaut, toutes les paires de mots consécutives sont utilisées pour la vérification des doublons). Une fonction de hachage est utilisée pour sélectionner efficacement une séquence de mots aléatoire dans chaque document. Si ces séquences sont identiques à la séquence de mots Options d'indexation, alors les deux documents sont considérés comme identiques selon cette fonction de hachage. Cette opération est répétée pour les fonctions de hachage Options d'indexation (la valeur par défaut est 14). Si deux documents acceptent tous deux l'une de ces fonctions de hachage, ils sont considérés comme étant des doublons selon cet essai. Six de ces essais sont répétés et au moins deux d'entre eux doivent considérer les documents comme égaux pour qu'ils soient pris en compte comme des doublons. Ces six essais sont la signature générée lors de l'indexation.

Pour que la vérification des doublons soit plus stricte, augmentez le nombre de fonctions de hachage. Si vous obtenez des faux doublons car les données que vous explorez ont un vocabulaire trop restreint (les paires de mots ne capturent pas suffisamment d'informations sur le contenu des pages), vous pouvez augmenter le nombre de mots par séquence. Ce dernier cas se présente rarement. Pour comprendre ce qu'il se passe lorsque vous changez le nombre de fonctions de hachage, nous pouvons calculer la probabilité des documents considérés comme des doublons.

Si deux documents ont un chevauchement de p% des séquences uniques des mots Options d'indexation, la probabilité pour que ces deux documents soient considérés comme des doublons par une seule fonction de hachage est égale à p. Puis, la probabilité pour qu'un seul ensemble de fonctions de hachage (essai) les considère comme des doublons est la suivante :

1 - ((1 - p**n-hashes)**6 + 6 * p**n-hashes * (1-p**n-hashes)**5)

Cela équivaut au tableau de probabilités suivant pour différents nombres de fonctions de hachage. Les documents dont la probabilité est 2 sont considérés comme des doublons.

Tableau 1. Probabilités des doublons
% de chevauchement	10 hachages	12 hachages	14 hachages	16 hachages	18 hachages	20 hachages
100 %	100 %	100 %	100 %	100 %	100 %	100 %
99 %	99,9 %	99,9 %	99,9 %	99,9 %	99,9 %	99,9 %
98 %	99,9 %	99,7 %	99,6 %	99,3 %	98,8 %	98,2 %
97 %	99,4 %	98,8 %	97,9 %	96,5 %	94,8 %	92,7 %
96 %	98,2 %	96,5 %	94,0 %	90,9 %	87,0 %	82,6 %
95 %	95,8 %	92,4 %	87,9 %	82,4 %	76,2 %	69,7 %
94 %	92,3 %	86,6 %	79,7 %	72,0 %	63,9 %	55,8 %
93 %	87,5 %	79,5 %	70,3 %	60,8 %	51,5 %	42,8 %
92 %	81,6 %	71,3 %	60,4 %	49,8 %	40 %	31,7 %
91 %	75 %	62,7 %	50,6 %	39,7 %	30,3 %	22,8 %
90 %	67,8 %	54,1 %	41,5 %	30,9 %	22,4 %	15,9 %
85 %	33,7 %	20,5 %	12 %	6,8 %	3,7 %	2 %
80 %	12,9 %	5,9 %	3 %	1,1 %	0,5 %	0,2 %