Moteur de recherche
Tous les moteurs de recherche comprennent quatre composants principaux :
- Exploration, points de départ et connecteurs : le moteur d'exploration collecte les données brutes qui formeront éventuellement les résultats de recherche. Lorsque des pages Web sont explorées, le moteur d'exploration commence par les adresses URL de départ spécifiées par l'utilisateur et démarre le téléchargement des pages Web. Il localise les liens hypertexte sur les pages téléchargées et planifie l'exploration future des pages nouvellement reconnues. Des informations de configuration sont utilisées déterminer quelles pages doivent être explorées et comment les explorer.
- Conversion : le convertisseur traite les données brutes reconnues par le moteur d' exploration et produit une ou plusieurs données indexables. Les données brutes peuvent être codées dans n'importe quel nombre de formats, notamment des archives, des fichiers compressés, des PDF ou des fichiers Word Microsoft. La plupart des moteurs de recherche ne présentent pas l'étape de conversion. Cette étape est hautement personnalisable dans le moteur de recherche Watson Explorer Engine, et prend en charge un traitement très flexible des données brutes, comprenant un traitement sophistiqué des métadonnées et, en option, la génération. Watson Explorer Engine fournit également un extracteur de titre très avancé qui permet de déduire des titres de document à partir de documents PDF, Word, et dans d'autres formats. La sortie finale du processus de conversion est en langage XML au format XML IBM.
- Indexation : l'indexeur traite les données textuelles produites par le convertisseur et génère des structures de données pour faciliter l'efficacité de la recherche et de l'extraction de ces informations. Dans le moteur de recherche Watson Explorer Engine, l'indexation produit également des signatures qui sont utilisées pour éliminer les quasi doubles au moment de la recherche. Le service d'indexeur de chaque collection est le processus qui alimente réellement les résultats.
- Recherches : le processus de recherche (appelé query-service) exécute continuellement des requêtes de proxy sur le service d'indexeur approprié.
L'outil d'administration de Watson Explorer Engine comporte un onglet configuration contenant une sous-section pour chacun de ces composants. De plus, la configuration Service de requête spécifient des options qui s'appliquent à toutes les collections.
Les données et la configuration d'une recherche s'appellent une collection. Il n'existe aucune limite du nombre de collections pouvant être créées. Chaque collection contient des données réelles et (éventuellement) des données de transfert. Les données réelles sont utilisées pour la recherche en cours. Les données de transfert sont utilisées pour cumuler des informations lorsqu'une nouvelle copie de la collection est explorée et indexée. Ces concepts sont expliqués plus en détails à la section Données opérationnelles et données de transfert. Pour modifier et tester une nouvelle configuration, une collection peut aussi disposer d'une copie de travail.
Une nouvelle collection est une copie de la configuration d'une collection existante. Il s'agit généralement de la collection par défaut. La collection par défaut peut être utilisée pour spécifier des options par défaut au niveau de l'organisation. Par exemple, si un proxy est requis, les informations de proxy peuvent être entrées dans la collection par défaut, et le proxy sera utilisé pour toutes les collections créées par la suite.
Le moteur d'exploration repose sur un système de règles récursif et propose un contrôle extensif de l'exploration. Les documents sont générés à l'aide d'une infrastructure ouverte et extensible dans laquelle vous pouvez insérer des programmes et des scripts arbitraires ainsi que des transformations XSL ou des transformations Watson Explorer Engine.