DB2 10.5 for Linux, UNIX, and Windows

Paramètres de recherche

Cette rubrique décrit les différents types de paramètre lors de la recherche. Elle inclut notamment une description des paramètres.

Paramètres

RESULT LIMIT nombre

Mot clé spécifiant le nombre maximal de résultats que la recherche en texte intégral doit renvoyer.

L'argument RESULT LIMIT doit être utilisé avec la fonction SCORE pour garantir l'évaluation des résultats renvoyés et le traitement des meilleurs résultats correspondant uniquement.

EXPANSION LIMIT nombre

Mot clé spécifiant le nombre maximal de termes vers lesquels un caractère générique peut être développé pour la recherche. Par exemple, pour déterminer combien de fois vous pouvez développer le terme recherché 'a*'. Si votre index est très grand et que vous utilisez beaucoup de termes de caractère générique, vous devez régler la valeur de ce mot clé si vous voulez obtenir un ensemble de résultats plus grand. L'ordre de développement dépend de l'organisation interne de l'index de texte et ne peut pas être déterminé à l'avance. Si l'expression générique est trop générale, elle peut être développée en un nombre plus important de termes à rechercher que ce qui est spécifié dans LIMITE D'EXTENSION, la recherche renvoie une erreur, indiquant que le résultat de la recherche a été tronqué car la limite est atteinte.

STOP SEARCH AFTER nombre DOCUMENT | DOCUMENTS

Mot clé spécifiant le seuil de recherche. La recherche est arrêtée lorsque le nombre donné de documents est atteint pendant la recherche et qu'un résultat intermédiaire est renvoyé. Une valeur plus faible augmente les performances de la recherche, mais aboutit à des résultats moins nombreux avec un rang potentiellement élevé.

Notez qu'il n'y a pas de valeur par défaut et que la valeur de nombre doit être un entier positif.

expression-recherche-booléenne

Les termes recherchés et les facteurs de recherche peuvent être associés à l'aide des opérateurs booléens NOT, AND, OR, ACCUM et MINUS en fonction des diagrammes de syntaxe. Les opérateurs ont priorité les uns par rapport aux autres, dans l'ordre suivant (le premier ayant la plus forte priorité) : NOT > MINUS = ACCUM = AND > OR comme le montre l'exemple suivant :

"Pilote" MINUS "passager" & "véhicule" |
"transport" & "public"

est évalué comme :

(("Pilote" MINUS "passager") & ("véhicule")) | ("transport" &
"public")

L'opérateur correspond à la valeur true, si l'un des arguments booléens correspond à cette même valeur (qui est comparable à l'opérateur OR). La valeur de rang est calculée en accumulant les valeurs de rang des deux opérandes. L'opérateur ACCUM a la même liaison (priorité) que AND. L'opérateur MINUS correspond à la valeur true, si l'opérande de gauche correspond à la même valeur. La valeur de rang est calculée en prenant la valeur de rang de l'opérande de gauche et en soustrayant une pénalité, si l'opérande de droite correspond à la valeur true.

recherche-primaire

Une recherche primaire constituée d'une liste de littéraux texte est évaluée à la valeur true, si l'un des littéraux texte se trouve dans la section spécifiée du document. Une recherche primaire constituée d'un appel de thésaurus est évaluée à la valeur true, si l'un des littéraux texte étendus se trouve dans la section spécifiée du document.

SECTION | SECTIONS nom-section

Mot clé spécifiant une ou plusieurs sections dans un document structuré à la ou lesquelles la recherche doit se limiter. Le nom de la section doit être spécifié dans un fichier modèle au moment de la création de l'index ou être exprimé dans la notation XPath.

La distinction majuscules-minuscules est appliquée aux noms de section. Assurez-vous que la casse du nom de la section dans le fichier modèle est identique à celle de la requête.

Ce modèle décrit la structure des documents qui contiennent les sections identifiables, de telle sorte que des recherches peuvent être effectuées individuellement dans le contenu de ces sections. Les noms de section ne peuvent pas contenir de caractères génériques. Le facteur-recherche-positive utilisant la clause SECTION correspond à la valeur true, si la recherche primaire se trouve dans l'une des sections spécifiées.

Les noms de section ne sont pas des expressions XPath valides évaluées lors de l'exécution des requêtes. Si aucune fichier modèle n'est utilisé, les noms de section par défaut sont exprimés dans la notation XPath. L'expression du chemin d'accès absolu vers l'élément (comme par exemple /father/child/grandchild ) est utilisé comme nom pour l'identification de la section. Les expressions complètes XPath ne sont pas prises en charge en tant que noms de section.

argument-contexte IN SAME unité-contexte AS argument-contexte AND argument-contexte ...

Cette condition permet de rechercher une combinaison de littéraux texte se trouvant dans le même paragraphe ou la même phrase. Les arguments de contexte sont toujours équivalents aux listes de littéraux texte et l'extension du thésaurus peut être utilisée pour étendre un littéral texte en une telle liste.

La condition est évaluée à true, si une unité-contexte se trouve dans le document (paragraphe ou phrase) qui contient au moins l'un des littéraux texte de chaque argument-contexte développé, comme le montre l'exemple suivant :

("a","b") IN SAME PARAGRAPH AS ("c","d") 
          AND THESAURUS "t1" EXPAND SYNONYM TERM OF "e".

Si l'on suppose que e1, e2 sont synonymes de e, les paragraphes suivants correspondent :

".. a c e .." ,  ".. a c e1..",  "a c e2..",
".. a d e .." ,  ".. a d e1..",  "a d e2..",
".. b c e .." ,  ".. b c e1..",  "b c e2..",
".. b d e .." ,  ".. b d e1..",  "b d e2..".

PRECISE FORM OF

Mot clé qui fait que le mot (ou chaque mot de l'expression) qui suit PRECISE FORM OF est recherché exactement tel qu'il est saisi. Cette forme de recherche fait la distinction majuscules-minuscules. Autrement dit, le respect de la casse est important. Par exemple, si vous recherchez le terme souris, vous ne trouverez pas le terme "Souris".

Ce paramètre nécessite que le paramètre de configuration d'index Respect case soit égal à yes. Ce paramètre de configuration ne peut pas être modifié après la génération de l'index.

STEMMED FORM OF

Mot clé qui fait que le mot (ou chaque mot de l'expression) qui suit STEMMED FORM OF est réduit à sa racine avant que la recherche soit lancée. Cette forme de recherche ne fait pas de distinction entre les majuscules et les minuscules. Par exemple, si vous recherchez le terme souris, vous trouverez également "Souris".

La façon dont les mots sont réduits à leur racine dépend de la langue. Actuellement, seule la lemmisation anglaise est prise en charge et le mot doit respecter les terminaisons standard.

FUZZY FORM OF

Mot clé destiné à la réalisation d'une recherche "floue" qui est une recherche des termes ayant une orthographe similaire au terme recherché. Ceci est particulièrement utile lors de la recherche dans des documents qui ont été créés par un programme de reconnaissance optique des caractères (OCR). De tels documents incluent souvent des mots mal orthographiés. Par exemple, le mot économie peut être reconnu comme écononie par un programme OCR. Notez que les correspondances réussies ne sont renvoyées que pour les mots d'un document où les trois premiers caractères correspondent. Dans l'exemple précédent, écanomie n'est pas une correspondance. La recherche floue ne peut pas être utilisée si un mot de l'atome de recherche contient un caractère générique.

niveau-correspondance

Entier compris entre 1 et 100, spécifiant le degré de similitude, où 100 est plus proche que 1. 100 spécifie une "correspondance exacte" et 60 est déjà considéré comme une valeur très "floue". Plus le niveau de correspondance est flou, plus la durée de la recherche est longue, du fait que davantage de documents sont qualifiés pour la recherche. Le niveau de correspondance par défaut est 70.

WEIGHT nombre

Associe un littéral texte à une valeur WEIGHT pour modifier le score par défaut. Les valeurs WEIGHT autorisées sont des entiers compris entre 0 (valeur du score la plus faible) et 100 (la plus élevée). La valeur par défaut est 100.

mot-ou-expression

Mot ou expression à rechercher. Les caractères pouvant être utilisés dans un mot dépendent de la langue. Le fait que les mots doivent être séparés par des caractères séparateurs dépend également de la langue. En anglais et dans la plupart des autres langues, chaque mot d'une expression doit être séparé par un espace.

Pour rechercher une chaîne de caractères contenant des guillemets, saisissez les guillemets deux fois. Par exemple, pour rechercher le texte caractère "générique", tapez :

"caractère ""générique"""

Notez que dans l'exemple, il n'est possible de rechercher qu'un seul ensemble de guillemets. Il n'est pas possible de rechercher deux guillemets dans une séquence. La longueur de chaque mot ou expression est également limitée à 128 octets.

Caractères génériques

Un mot peut contenir les caractères génériques suivants :

_ (trait de soulignement): Représente n'importe quel caractère simple.
% (pour cent): Représente n'importe quel nombre de caractères arbitraires. Si un mot est constitué d'un seul caractère %, il représente alors un mot facultatif de n'importe quelle longueur. Un mot ne peut pas être composé exclusivement de caractères génériques, sauf lorsqu'un seul % est utilisé pour représenter un mot facultatif. Si vous utilisez un caractère générique, vous ne pouvez pas utilisez le mot clé THESAURUS. Les caractères génériques ne peuvent pas être utilisés à l'intérieur de parties de recherche de thésaurus. S'ils sont utilisés en combinaison, les résultats de la recherche seront imprévisibles. Les caractères génériques ne peuvent pas suivre un caractère non alphanumérique. Les caractères génériques ne peuvent pas être utilisés dans une recherche floue car ces caractères débouchent toujours sur un seul mot.

ESCAPE caractère-échappement

Caractère identifiant le caractère suivant comme étant à rechercher et non à utiliser comme caractère générique. Par exemple, si un caractère d'échappement est $, alors $%, $_ et $$ représentent %, _ et $. Tous les caractères % et _ non précédés de $ représentent des caractères génériques.

Lors de la recherche, vous ne pouvez utiliser que des caractères d'échappement mono-octets. Aucun caractère à deux octets n'est autorisé.

THESAURUS nom-thésaurus

Mot clé utilisé pour spécifier le nom du thésaurus à utiliser pour étendre un littéral texte. Le nom du thésaurus est celui du fichier (sans son extension) d'un thésaurus compilé à l'aide du compilateur de thésaurus. Il doit se trouver dans <rép-dépendant-du-se>/sqllib/db2ext/thes. Le chemin d'accès complet peut être également spécifié, précédant le nom de fichier.

EXPAND relation

Spécifie la relation devant être utilisée pour étendre le littéral texte à l'aide du thésaurus. Le thésaurus a prédéfini les relations décrites dans la commande DB2EXTTH. Elles sont référées à l'aide des mots clés suivants :

SYNONYM, relation symétrique exprimant l'équivalence.
RELATED, relation symétrique exprimant l'association.
BROADER, relation hiérarchique dirigée, pouvant être suivie de niveaux de profondeur spécifiés.
NARROWER, relation hiérarchique dirigée, pouvant être suivie de niveaux de profondeur spécifiés.

Pour les relations définies par l'utilisateur, utilisez RELATION(nombre) qui correspond à la définition de relation dans DB2TEXTTH.

TERM OF littéral-texte

Littéral texte auquel d'autres termes de recherche doivent être ajoutés du thésaurus.

nombre LEVELS

Mot clé utilisé pour spécifier le nombre de niveaux (la profondeur) des termes du thésaurus, utilisés pour étendre la recherche pour une relation donnée. Si ce mot clé n'est pas spécifié, un nombre égal à 1 est présumé. La valeur de profondeur doit être un entier positif.

ATTRIBUTE nom-attribut

Recherches de documents ayant des attributs correspondant à la condition spécifiée. Le nom-attribut fait référence au nom d'une expression d'attribut dans la commande CREATE INDEX ou à une définition d'attribut dans le fichier modèle de document.

Le facteur-attribut est autorisé pour les attributs de type DOUBLE uniquement. La précision de la valeur est garantie jusqu'à 15 chiffres. Les nombres composés de 16 chiffres et plus sont arrondis. L'utilisation de caractères génériques n'est pas autorisée dans nom-attribut, valueFrom et valueTo. Pour plus d'informations, reportez-vous à ce qui suit :

BETWEEN valueFrom AND valueTo: Un facteur d'attribut BETWEEN correspond à la valeur true si la valeur de l'attribut est supérieure à (différente de) valueFrom et inférieure à (différente de) valueTo.
>valueFrom: Un facteur d'attribut ">" correspond à la valeur true si la valeur de l'attribut est supérieure à (différente de) valueFrom.
<valueTo: Un facteur d'attribut "<" correspond à la valeur true, si la valeur de l'attribut est inférieure à (différente de) valueTo.

Si le nom de l'attribut dans la commande CREATE INDEX est spécifié avec des guillemets ou est défini dans un fichier modèle, le nom de l'attribut spécifié doit correspondre exactement. En revanche, si aucun guillemet n'est spécifié dans la commande CREATE INDEX, le nom de l'attribut doit être en majuscules.

IS ABOUT langue mot-ou-expression

Option permettant de spécifier un argument de recherche en texte libre. Avec IS ABOUT, vous pouvez chercher dans un document l'un ou plusieurs des termes que vous avez spécifiés dans mot-ou-expression (mais pas forcément tous), dans l'ordre qui vous convient. Plus les termes utilisés dans mot-ou-expression sont proches et plus les mots inclus dans un document sont nombreux, plus le score renvoyé pour le document est élevé.

La langue du paramètre est facultative et ne doit être définie que pour le thaï (TH_TH) pour des raisons de segmentation et le turc (TR_TR) pour des raisons d'association correcte de la casse.

Notez que l'argument IS ABOUT n'est utile que si des valeurs de score de document sont demandées et que les résultats de la recherche sont triés par valeurs de score.