Considérations relatives à la taille des documents
Db2 Text Search a des limites sur la taille d'un document qui peut être indexé et sur le nombre de caractères dans ce document.
La taille maximale des documents pouvant être traités avec succès est contrôlée par le paramètre MAXDOCUMENTSIZEINMB dans SYSIBMTS.TSDEFAULTS . La valeur par défaut de ce paramètre est 100 Mo. Si un document dépasse la limite de taille, ce document est rejeté et une entrée est créée dans la table des événements avec ces informations, y compris la clé primaire pour l'identifier. Le traitement se poursuit pour les autres documents qui font partie de cette opération de mise à jour.
Db2 Text Search limite le nombre de caractères Unicode que vous pouvez indexer pour chaque document texte. Parfois, cette limite de caractères entraîne la troncature de documents texte volumineux dans l'index de recherche de texte.
- Les fichiers texte dont la taille est supérieure à la valeur de max.text.size (en caractères) sont tronqués à cette taille avant d'être indexés. La valeur par défaut est de 60 000 000 caractères.
- Les fichiers XML dont la taille est supérieure à la valeur de max.xml.text.size (en octets) ne sont pas indexés. La valeur par défaut est 60 000 000 octets. Le nombre inclut les noms de balise, les noms d'attribut et les valeurs d'attribut, mais pas les directives et les commentaires XML.
- Les fichiers binaires dont la taille est supérieure à la valeur de max.binary.text.size (en octets) ne sont pas indexés. La valeur par défaut est 60 000 000 octets. Cette limite est appliquée une fois que le document est transformé en texte.
Lorsque la taille d'un fichier texte dépasse la taille maximale du fichier texte (60 millions de caractères par défaut), le fichier texte est tronqué à la limite de taille avant d'être indexé. Si un document texte est tronqué lors de l'étape d'analyse syntaxique, vous recevez un avertissement indiquant qu'un texte n'a pas été traité correctement ou complètement.
Lorsque la taille d'un document au format binaire ou XML dépasse la taille de fichier maximale (60 millions d'octets par défaut), le document n'est pas indexé et une erreur est générée.
Les résultats de la recherche sont incomplets si le texte est traité de manière incorrecte ou incomplète. Si possible, ajustez les limites de taille ou élaguez le document pour le traitement. Les détails de l'avertissement sont écrits dans la table d'événements créée pour l'index de recherche de texte.
Si vous souhaitez augmenter les limites de taille de fichier, vous devez augmenter la taille de segment de mémoire en conséquence. Vous pouvez utiliser l'outil de configuration pour ajuster la taille de segment de mémoire maximale en spécifiant le paramètre maxHeapSize .