Normes RFC d'URL
Watson Explorer Engine respecte strictement les normes RFC (Request for Comments) IETF (Internet Engineering Task Force). Les sites Web et les navigateurs Web ne respectant pas strictement ces normes, vous devez garder à l'esprit un certain nombre de points lorsque vous configurez votre projet.
- Watson Explorer Engine code les caractères non ASCII des URL sous forme de pourcentages. Les caractères hexadécimaux utilisés dans le codage en pourcentage des URL sont normalisés en minuscules. Alors que la stratégie de normalisation de la casse hexadécimale varie selon les logiciels, la norme IETF déclare que les caractères hexadécimaux doivent être considérés comme insensibles à la casse. La demande de commentaires (RFC) relative à cette norme IETF est disponible ici : 6.2.2: Syntax-Based Normalization.
- Watson Explorer Engine supprime tout ce qui se trouve après le symbole d'ancre (#)lorsqu'il vérifie qu'une URL a déjà été explorée.
- Watson Explorer Engine ne reconnaît pas les chemins de fichier (par exemple C:\..) comme des URL. Utilisez une URL telle que la suivante pour référencer une ressource sur le système de fichiers local : file:///C%3a/Program%20Files/my%20file.txt
- Watson Explorer Engine ne reconnaît pas les chemins de fichier UNC (Windows Universal Naming Convention)(par exemple \\sharehost\path\file) comme des URL.
- Les alias de système de noms de domaine (DNS) et les noms d'hôte ne peuvent pas inclure de trait de soulignement (_) dans leur URL.
Vous pouvez assouplir les vérifications de Watson Explorer Engine sur les URL en désactivant les normalisations d'URL. Pour ce faire, ouvrez l'onglet d'une collection de recherche. Ouvrez la section URL normalization. Pour plus d'informations, voir Normalisations des URL.