Connexion et déconnexion
Les sites Web prennent en charge différentes manières de se connecter et de se déconnecter. La plupart de ces processus de connexion/déconnexion est prise en charge par Watson Explorer Engine, mais exige une configuration avancée.
Chaque source comporte une section de connexion/déconnexion avec des modèles associés. Ces modèles gèrent les manières les plus communes de traiter les connexions et déconnexions. Lors de l'extraction séquentielle des pages, Watson Explorer Engine gère les cookies comme le ferait un navigateur. La plupart des processus de connexion/déconnexion suivants s'appuie sur cette propriété : lors de l'extraction des pages demandées, le serveur distant peut spécifier les cookies utilisés pour demander les pages suivantes.
- Connexion à l'URL : extraire une URL avant de récupérer un résultat de recherche faisant l'objet d'une authentification HTTP. Le nom d'utilisateur HTTP et le mot de passe peuvent être spécifiés en définissant des variables utilisateurs pour la source, en cliquant sur [val], puis en sélectionnant les noms de variable dans la liste déroulante.
- Connexion CGI : extraire une URL, en transmettant le nom d'utilisateur et le mot de passe comme paramètres CGI avant de récupérer des résultats de recherche. Les valeurs du nom d'utilisateur et du mot de passe peuvent également être spécifiées en définissant les variables utilisateurs.
- Connexion à la page : accéder à une page, entrer un nom d'utilisateur et un mot de passe dans un formulaire, et soumettre le formulaire. Cela exige une procédure supplémentaire à la connexion précédente, mais qui peut être nécessaire si un cookie de session est défini uniquement lorsque l'utilisateur charge le formulaire de connexion, et pas lorsqu'il le soumet.
- Déconnexion simple : accéder à une URL lorsque l'extraction des résultats est terminée, même en cas de dépassement de délai.
Certains sites ne s'appuient pas sur les cookies pour l'authentification, mais spécifient un ID session faisant office de paramètre CGI. Watson Explorer Engine peut s'y conformer, mais une configuration directe du code XML de la source est requise. La page qui spécifie l'ID session doit faire l'objet d'une analyse syntaxique, et l'ID session doit être sauvegardé dans une variable. Cette variable doit être utilisée lors de la soumission des pages de résultat, et doit donc être utilisée pour définir le formulaire associé à la source. Vous devez bien connaître le code XML de Watson Explorer pour configurer correctement ce type d'authentification.
Pour poursuivre avec ce tutoriel, cliquez sur Divers.