Слепок Text Mining: вкладка Эксперт

Вкладка Эксперт содержит некоторые дополнительные параметры, которые влияют на извлечение и обработку текста. Параметры в этом диалоговом окне управляют базовым поведением, а также некоторыми дополнительными стратегиями извлечения. Но они представляют лишь часть доступных вам опций. Есть еще целый ряд лингвистических ресурсов и опций, влияющих на результаты извлечения и управляемых шаблоном ресурса, который выбирается на вкладке Модель. Дополнительную информацию смотрите в разделе Узел Text Mining: вкладка Модель.

Прим.: Вся эта вкладка недоступна, если выбран режим Построить интерактивно с использованием сохраненной информации интерактивной инструментальной среды на вкладке Модель; в этом случае параметры извлечения берутся из последнего сохраненного сеанса инструментальной среды.

При извлечении можно задать следующие параметры:

Ограничить извлечение понятиями с глобальной частотой не менее [n]. Задает минимальное число раз, которое слово или фраза должны встретиться в тексте для их извлечения. В данном случае значение 5 ограничивает извлечение словами и фразами, которые встретились во всем массиве записей или документов не менее пяти раз.

В некоторых случаях изменение этого предела может сильно повлиять на результаты извлечения и, соответственно, на создаваемые вами категории. Допустим, что вы обрабатываете данные о ресторанах и ограничились для этой опции значением 1. В этом случае в результатах извлечения вы можете обнаружить: пицца (1), тонкая пицца (2), пицца со шпинатом (2) и любимая пицца (2). Однако если вы задали предел 5 или более для глобальной частоты для извлечения и выполните извлечение повторно, то больше не увидите три последние понятия. Вместо этого вы получите пицца (7), поскольку пицца - это наиболее простая форма и это слово уже фигурировало в качестве возможного кандидата. Не исключено, что в тексте могут быть и другие фразы со словом "пицца", и тогда вы получите фактическую частоту больше семи. Кроме того, если выражение пицца со шпинатом уже использовалось в качестве дескриптора категории, вам, возможно, надо будет добавить дескриптор пицца, чтобы не захватывать все записи. Поэтому если категории уже созданы, изменять значение этого предела следует с осторожностью.

Обратите внимание, что это эта функция относится только к извлечению. Если шаблон содержит термины (обычно это так) и в тексте обнаружен термин из этого шаблона, этот термин будет проиндексирован независимо от его частоты.

Например, пусть вы работаете с шаблоном Базовые ресурсы, который содержит в типе <Положение> в главной библиотеке термин "Лос-Анджелес". Даже если в вашем документе Лос-Анджелес упоминается только один раз, он будет включен в список понятий. Чтобы избежать этого, надо задать фильтр для вывода только понятий, которые встречаются в тексте, как минимум, столько раз, сколько задано значением в поле Ограничить извлечение понятиями с глобальной частотой не менее [n].

Допускать ошибки пунктуации. Эта опция временно нормализует текст, содержащий ошибки пунктуации (например, неверно используемые знаки препинания) во время извлечения, чтобы повысить извлекаемость понятий. Эта опция особенно полезна для коротких текстов низкого качества (например, ответы при опросе с произвольным ответом, электронная переписка, данные CRM), а также для текста, содержащего много сокращений.

Привести написание в соответствие с минимальной символьной длиной слов [n] Эта опция применяет метод нечёткой группировки, помогающий сгруппировать слова с зачастую неверным написанием или слова со схожим написанием под одним понятием. Алгоритм нечеткой группировки перед сравнением временно удаляет из извлеченных слов все гласные (кроме первой) и двойные или тройные согласные, так что тунель и тоннель попадут в одну группу. Методы нечеткой группировки, однако, не применяются, если различным терминам назначены различные типы, кроме типа <Неизвестный>.

Кроме того, можно задать минимально необходимое число символов корня при использовании нечеткой группировки. Число символов корня в термине рассчитывается как общее число символов минус число символов окончания; кроме того, в случае термина-словосочетания вычитаются детерминативы и предлоги. Например, в термине упражнения будет насчитано 9 символов корня “упражнени”, поскольку буква я на конце слова относится к окончанию множественного числа. Аналогичным образом в пакет яблок насчитывается 10 символов корня (“пакет яблок”), а в магнитола для автомобиля насчитывается 17 символов корня (“магнитол автомобил”). Этот метод подсчета используется только при проверке применимости нечеткой группировки и не используется в алгоритмах сравнения слов.

Прим.: Если вы обнаружите, что определенные слова в дальнейшем будут сгруппированы неверно, из этого метода можно исключить пары слов, объявив их явно в разделе Нечёткая группировка: Исключения на вкладке Дополнительные ресурсы. Дополнительную информацию смотрите в разделе Нечеткая группировка.

Извлекать одиночные термины Эта опция извлекает одиночные слова (одиночные термины) при условии, что слово ещё не входит в состав составного слова и если оно является либо существительным, либо нераспознанной частью речи.

Извлекать нелингвистические объекты Эта опция извлекает нелингвистические объекты, такие как телефонные номера, номера социальной страховки, время, даты, денежные единицы, цифры, проценты, адреса электронной почты и адреса HTTP. Вы можете включить или исключить те или иные типы нелингвистических объектов в разделе Нелингвистические объекты: конфигурация на вкладке Расширенные ресурсы. Выключив ненужные объекты, вы сэкономите время обработки механизмом извлечения. Дополнительную информацию смотрите в разделе Конфигурация.

Алгоритм верхнего регистра Эта опция извлекает простые и составные термины, которых нет во встраиваемых словарях, при условии, что первая буква термина - буква верхнего регистра. Это хороший способ извлечь большинство имен собственных.

По возможности группировать между собой частичные и полные личные имена Эта опция группирует между собой имена, встречающиеся в тексте по-разному. Эта возможность полезна, поскольку имена часто употребляются в начале текста в полной форме, а затем - в краткой. Эта опция пытается сопоставить каждый одиночный термин с типом <Неизвестный> последнему слову в любом составном термине, типизированном как <Личный>. Например, если найден терм иванов, получивший вначале тип <Неизвестный>, механизм извлечения поищет составные термины в типе <Личный>, содержащие иванов как последнее слово, например, александр иванов. Эта опция применяется только к фамилии, поскольку первое имя почти никогда не извлекается как одиночный термин.

Максимум перестановок служебных слов Эта опция задает максимальное число служебных слов, которые могут быть представлены при применении метода перестановок. Этот метод перестановок группирует как близкие словосочетания, содержащие в своем составе одни и те же неслужебные слова, если игнорировать форму слова. Например, если задать ограничение в два неслужебных слова, будут обработаны такие извлеченные словосочетания, как компания клиенту и клиенту от нашей компании. В этом примере такие словосочетания будут сгруппированы в итоговом списке понятий, поскольку считаются одинаковыми, если проигнорировать слова от нашей.

Использовать производные формы при группировании составных терминов При обработке данных большого объема выберите эту опцию, чтобы группировать составные термины по правилам образования производных форм.

Прим.: Чтобы была доступна извлечение результатов Text Link Analysis, нужно начать сеанс с опцией Изучение результатов анализа текстовых связей; кроме того, нужно выбрать ресурсы, содержащие определения TLA. Результаты TLA можно извлечь и позже, в сеансе интерактивной инструментальной среды, в диалоговом окне Параметры извлечения. Дополнительную информацию смотрите в разделе Извлечение данных.