Tutoriel : Format d'entrée XML
Cette section présente le format XML que Watson Explorer Engine accepte en entrée. XML est une spécification de format de fichier structuré. Ce tutoriel ne part pas du principe que vous connaissez déjà XML, mais s'adresse plutôt à un public néophyte en la matière. Plus d'informations relatives à XML sont disponibles dans la spécification XML du W3C. Pour obtenir des détails complets sur notre format d'entrée XML, consultez le Watson Explorer Engine schéma dans la documentation en ligne.
En introduction, nous présentons deux scénarii habituels et décrivons le XML qui peut être créé en entrée pour le logiciel Watson Explorer Engine. Le premier scénario consiste à regrouper un ensemble de textes ou de documents HTML se trouvant sur votre machine locale, le deuxième consistant à regrouper les résultats d'un moteur de recherche. Pour obtenir des informations relatives aux résultats d'un moteur de recherche dans Watson Explorer Engine XML, voir Sources.
Une entrée XML valide doit contenir le préambule suivant (notez que cette ligne ne doit être précédée d'un blanc) :
<?xml version="1.0" encoding="UTF-8" />
Cette première ligne spéciale identifie le fichier comme étant un document XML et précise que le codage de caractères est UTF-8. UTF-8 est une norme de codage de caractères Unicode en texte brut. Il s'agit du codage utilisé par Watson Explorer Engine pour prendre en charge plusieurs langues.
Une fonctionnalité utile de conversion entre différents codages de document est (iconv). Watson Explorer Engine fournit également une petite application appelée iso2utf qui convertit le texte (d'une entrée standard) d'ISO-8859-1 en UTF-8 (d'une sortie standard). Cette application est disponible dans le répertoire bin de votre installation.
Pour poursuivre avec ce tutoriel, cliquez sur Groupement d'un ensemble de pages Web.