Советы по расширенному поиску

Можно изменить способ поиска в контенте, используя нечеткий поиск, поиск в том же предложении и поиск по корням. Расширенный поиск доступен только при поиске на основе текстового индекса. Поиск на основе текстового индекса выполняется только применительно к контенту, для которого существует полнотекстовый индекс. Узнайте у администратора eDiscovery, можете ли вы применять метод расширенного поиска к контенту, с которым вы работаете.

Ограничение: Расширенный поиск не поддерживается для содержимого, заархивированного при помощи IBM® FileNet Email Manager и хранящегося на сервере IBM FileNet P8.

Нечеткий поиск

При нечетком поиске возвращаются слова с написанием, похожим на условие поиска. Слова могут быть как родственными, так и не родственными. Нечеткий поиск может быть особенно удобен, если в контенте могут встречаться слова с орфографическими ошибками.

Форма нечеткого поиска имеет следующий вид:

Term~n

,где Term - слово для поиска, а n - значение сходства более 0,0 и менее 1,0.

Примеры нечеткого поиска:
Петр~0,7
Поиск со значением сходства 0,7
Lear~0.5
Поиск со значением сходства 0,5
Царь AND Петр~0,5
Поиск точных вхождений с Царь и нечетких - с Петр
Петр~0,5 NOT петрушка
Будут найдены нечеткие совпадения со словом Петр, но не найдены совпадения со словом петрушка, которое может быть найдено при нечетком поиске по слову Петр
Прим.: Из-за ограничений синтаксиса значение аналогии в средах IBM FileNet P8 с IBM Legacy Content Search Engine не поддерживается. Если вы зададите значение аналогии, оно будет проигнорировано; никакого влияния на поиск это не окажет.

Поиск в том же предложении

Поиск в том же предложении (его также называют поиском расположенных рядом слов) удобен тогда, когда вы считаете, что два слова не всегда встречаются в одном и том же порядке, но обычно используются в одном предложении.

Поиск в том же предложении не поддерживается в средах FileNet P8 с IBM Content Search Services. Попытки выполнить поиск в том же предложении в этой среде не возвратят никаких результатов.

Например, если вы задали поиск в том же предложении слов Царь Петр, то будет найден контент, содержащий любое из следующих предложений:
Царь Петр - выдающийся российский исторический деятель.
В русских сказках царь редко носит имя Петр.
Поиск в том же предложении можно представить следующим образом:
(Условие1 Условие2) WITHIN SENTENCE
, где Условие1 и Условие2 - два слова, которые вы хотите найти в одном и том же предложении. При поиске в том же предложении можно указать только два условия. Оба условия должны быть заключены в скобки, а после них должно стоять WITHIN SENTENCE. Например, если вы хотите, чтобы слова Царь и Петр оказались в одном предложении, то нужно ввести:
("Царь" "Петр") WITHIN SENTENCE
Например, если вы хотите найти предложения, в которых одновременно встречаются слова Полководец и Царь Петр, то нужно ввести:
("Полководец" "Царь Петр") WITHIN SENTENCE
Условия поиска в одном и том же предложении также можно сочетать с другими условиями поисками, например:
(("Король" "Людовик") WITHIN SENTENCE) NOT номинация
Поиск в том же предложении будет выполняться с использованием условия (Король Людовик) WITHIN SENTENCE, и будет возвращен контент, содержащий слова король и людовик в одном предложении, но не содержащий слова номинация.

Поддержку поиска в том же предложении обеспечивает компонент DB2 Net Search Extender, в котором эта возможность иногда называется поиском вблизи. Более подробную информацию о том, как DB2 Net Search Extender определяет конец предложения, смотрите в подразделе Абзацы раздела Маркеры.

Поиск в одном и том же предложении не поддерживается для содержимого, заархивированного при помощи IBM FileNet Email Manager и хранящегося на сервере IBM FileNet P8.

Поиск по корням

Поиск по корням - хороший способ искать однокоренные слова с правильными окончаниями.

Ограничение: Поиск по корням поддерживается только для английского языка.

Поиск однокоренного слова означает сокращение слова до корня, а затем поиск корня слова (который также называют основой слова). Например, при поиске по корням по слову grows будет возвращено содержимое, содержащее слова grow, grows и growing, но не growth, grown или grew.

Поиск по корням применим ко всем одиночным условиям поиска, со следующими исключениями:
  • Условия, отмеченные для нечеткого поиска
  • Условия с символами подстановки
  • Словосочетания (текст, заключенный в кавычки)
  • Поиск в том же предложении

Например, если вы введете election OR nomination OR president~ OR hold* OR (King Lear)~SENTENCE в качестве условий поиска и выберете поиск по корням, то он будет применен только к словам election и nomination.

Совет: Чтобы найти больше связанных слов, используйте как поиск по корням, так и нечеткий поиск. Например, при поиске по корням с использованием значения grow будет возвращен контент, содержащий слова grow, grows и growing, тогда как при нечетком поиске по grow будет возвращен контент, содержащий слова grew, grown и growth, плюс еще несколько слов, не связанных по значению.

Поддержку поиска по корням обеспечивает DB2 Net Search Extender. Подробную информацию о поиске по корням смотрите в публикации Net Search Extender Administration and User's Guide.

В средах IBM FileNet P8, в которых используется IBM Content Search Services, вместо поиска по корням при поиске в контенте использовалась лемматизация. Лемматизация - это алгоритмическое определение леммы слова (базовой части слова). Основное различие между лемматизацией и поиском по корням заключается в том, что лемматизация работает не просто со словом, но также и с его контекстом. Например:
  • У слова "лучше" леммой является слово "хорошо". При поиске по корням эта ссылка пропадает, так как для нее требуется поиск в словаре.
  • Слово "прогулка" является базовой формой слова "прогуливающийся", поэтому "прогулка" одинаково обрабатывается и при поиске по корням, и при лемматизации.
  • Слово "версионализация" может быть базовой формой существительного или глагола (с точки зрения версии) в зависимости от контекста. Лемматизация может определить правильную лемму для слова "версионализация" на основе контекста. Например, в предложении: "Версионализация в этом продукте выше всяких похвал", алгоритм лемматизации выберет форму существительного для слова "версионализация" и найдет лемму "версионализация", которая является исходным маркером поиска.

Поиск в диапазоне значений в целочисленных полях

Синтаксис
реляционный_оператор целое_число [ логический_оператор реляционный_оператор целое_число] [ логический_оператор реляционный_оператор целое_число] ...
где

реляционный_оператор может быть оператором >, <, >=, <=, =, != или <>

логический_оператор может быть одним из операторов AND или OR

Подразумеваемый порядок приоритета операторов - это AND, после которого идет OR. Можно использовать скобки, чтобы переопределить подразумеваемый порядок.

В следующих примерах показано, как можно построить запросы:
TIEFLAG: 	10000 

TIEFLAG: 	=10000 

TIEFLAG: 	<10000 

TIEFLAG: 	<>10000 

TIEFLAG: 	>=10000 AND <=20000  

TIEFLAG: 	>=10000 AND <=20000 OR =15000 

TIEFLAG: 	!=5000 AND (>20000 OR <10000) AND !=25000