Семантические сети

В этом выпуске использование семантических сетей доступно только для англоязычного текста.

Этот метод строит категории, используя встроенную сеть взаимосвязей слов. Из-за этого использование данного метода может привести к очень хорошим результатам, когда термины конкретны и не слишком многозначны. Однако не следует ожидать, что использование семантических сетей приведет к нахождению большого числа связей между техническими или очень специализированными понятиями. При работе с такими понятиями может оказаться, что предпочтительнее способы включения понятий и вывода корня понятий.

Как работает семантическая сеть

Смысл метода семантических сетей состоит в усилении известных взаимосвязей слов для создания категорий синонимов или гипонимов. Гипоним - это вторичное, более частное понятие по сравнению с другим понятием, то есть более конкретный элемент иерархической взаимосвязи (другое название - взаимосвязь ISA). Например, если понятие - это animal, cat и kangaroo - это гипонимы animal, так как они представляют собой частные виды животных.

Кроме взаимосвязей гипонимов и синонимов метод семантических сетей проверяет также частичные и полные связи между понятиями типа <Положение>. Например, понятия normandy, provence и france будут группироваться в одну категорию, так как Нормандия и Прованс - это части Франции.

Работа семантических сетей начинается с идентификации возможных смыслов каждого понятия в семантической сети. Когда понятия идентифицируются как синонимы и гипонимы, они группируются в одну категорию. Например, этим способом можно создать одну категорию, содержащую следующие три понятия: eating apple (столовое яблоко), dessert apple (десертное яблоко) и granny smith (сорт Гранни Смит), так как в семантической сети есть информация о том, что: 1) dessert apple - это синоним eating apple, и 2) granny smith - это сорт eating apple (то есть гипоним eating apple).

Взятые по отдельности, многие понятия, особенно одиночные термины, неоднозначны. Например, понятие буфет может означать или способ подачи пищи, или элемент мебели. Если в наборе понятий есть понятия еда, мебель и буфет, алгоритм должен будет выбирать между группировкой буфет с едой или с мебелью. Учтите, что в некоторых случаях выбор алгоритма может не походить для контекста конкретного набора записей или документов.

Метод семантических сетей обычно превосходит результаты включения понятий для определенных типов данных. Хотя и семантическая сеть, и включение понятий распознают, что apple pie - это частный вид понятия pie, только семантическая сеть распознает, что tart - это тоже вид pie.

Семантические сети могут работать в связи с другими способами. Допустим, например, что вы выбрали использование и семантической сети, и включения понятий, и семантическая сеть сгруппировала понятие teacher с понятием tutor (так как tutor - это частный вид понятия teacher). Алгоритм включения понятий может сгруппировать понятия graduate tutor и tutor, то есть в результате два алгоритма создадут выходную категорию, содержащую все три понятия: tutor, graduate tutor и teacher.

Опции семантической сети

Есть несколько дополнительных параметров, которые могут быть полезны для этого метода.

  • Измените Максимальное расстояние поиска. Выберите, на каком удалении должны выполнить поиск методы, прежде чем создать категории. Чем меньше это значение, тем меньше будет результатов поиска; вместе с тем в таких результатах будет меньше шума, и они с большей вероятностью окажутся зависимы друг от друга. Чем выше это значение, тем больше может быть результатов; однако такие результаты могут оказаться ненадежны или не соответствовать цели поиска.

Например, в зависимости от расстояния поиска алгоритм, начиная с Danish pastry ищет понятия до coffee roll (родительский элемент), затем до bun (родительский элемент еще уровнем выше) и далее по иерархии до bread.

При меньшем расстоянии поиска этот алгоритм создаст меньше категорий, с которыми может быть проще работать, если вы чувствуете, что создается очень большая категория или очень много элементов группируется вместе.

Важно! Кроме этого, мы не рекомендуем не применять опцию Согласовать грамматические ошибки для минимального предела символов корня (определенную на вкладке Эксперт узла или в диалоговом окне Извлечение) для нечеткой группировки при использовании этого метода, так как несколько ложных группировок могут крайне отрицательно сказаться на результатах.