Извлечение данных
Во всех случаях, когда требуется извлечение, панель Результаты извлечения становится желтой, а под панелью инструментов на этой панели выводится сообщение Для извлечения понятий нажмите кнопку Извлечь.
Возможно, вам понадобится выполнить извлечение, если у вас еще нет результатов извлечения, вы внесли изменения в лингвистические ресурсы и нужно изменить результаты извлечения, или же вы переоткрыли сеанс , в котором не сохранили результаты извлечения ()..
При выполнении извлечения появляется индикатор хода выполнения, позволяющий судить о состоянии процесса. В это время механизм извлечения считывает все текстовые данные, выявляет соответствующие термины и паттерны, извлекает их и назначает их типу. Затем механизм пытается сгруппировать термины-синонимы под одним главным термином, который называется понятием. По завершении процесса полученные в результате понятия, типы и паттерны выводятся на панели Результаты извлечения.
Процесс извлечения приводит к созданию набора понятий и типов, например, паттернов Text Link Analysis (TLA), если они разрешены. На панели Результаты извлечения представления Категории и понятия можно просматривать эти понятия и типы и работать с ними. При извлечении паттернов TLA их можно увидеть в представлении Text Link Analysis.
Для извлечения данных
- В меню выберите . Или же нажмите кнопку Извлечь на панели инструментов.
- Если выбрана опция всегда выводить диалоговое окно Параметры извлечения, в появившемся окне можно будет внести нужные изменения. Дескрипторы этих параметров описаны далее в этой теме.
- Нажмите кнопку Извлечь, чтобы начать процесс извлечения. Как только извлечение начнется, появится диалоговое окно хода выполнения. По завершении извлечения его результаты появятся на панели Результаты извлечения. По умолчанию понятия выводятся в нижнем регистре и сортируются в порядке убывания числа документов (столбец Документы) .
Результаты можно просматривать, используя опции панели инструментов для различной сортировки результатов, фильтрации результатов или переключения на другое представление (понятия или типы). Можно также уточнить результаты извлечения путем работы с лингвистическими ресурсами. Дополнительную информацию смотрите в разделе Уточнение результатов извлечения for more information.
Возможные проблемы извлечения
Несколько сеансов интерактивной инструментальной среды могут привести к замедлению поведения. SPSS Modeler Text Analytics и SPSS Modeler при запуске сеанса интерактивной инструментальной среды совместно используют общий механизм среды выполнения Java. В зависимости от числа вызываемых вами во время сеанса SPSS Modeler сеансов интерактивной инструментальной среды память системы может привести к замедлению прикладной программы (даже если открывается и закрывается один и тот же сеанс). Этот эффект может быть особенно заметен при работе с большим объемом данных или при объеме оперативной памяти компьютера меньше рекомендуемых 4 Гбайт. Если вы заметили задержку ответа компьютера, рекомендуется сохранить всю работу, остановить SPSS Modeler и перезапустить прикладную программу. Запуск SPSS Modeler Text Analytics на компьютере с объемом оперативной памяти меньше рекомендуемого (особенно при работе с большим объемом данных) может привести к нехватке памяти Java и завершению работы. Если вы работаете с большим объемом данных, настоятельно рекомендуется установить память рекомендуемого или большего объёма (либо использовать сервер SPSS Modeler Text Analytics ).
Для текста на голландском, английском, французском, немецком, итальянском, португальском и испанском
Диалоговое окно Параметры извлечения содержит основные опции извлечения.
Включить извлечение паттерна Text Link Analysis. Задает, что вам требуется извлекать паттерны TLA из ваших текстовых данных. Предполагается также, что ваши правила паттернов TLA находятся в одной из библиотек в редакторе ресурсов. Эта опция может существенно увеличить время извлечения. Дополнительную информацию смотрите в разделе Изучаем анализ текстовых связей (Text Link Analysis, TLA).
Допускать ошибки пунктуации. Эта опция временно нормализует текст, содержащий ошибки пунктуации (например, неверно используемые знаки препинания) во время извлечения, чтобы повысить извлекаемость понятий. Эта опция особенно полезна для коротких текстов низкого качества (например, ответы при опросе с произвольным ответом, электронная переписка, данные CRM), а также для текста, содержащего много сокращений.
Привести написание в соответствие с минимальной символьной длиной слов [n] Эта опция применяет метод нечёткой группировки, помогающий сгруппировать слова с зачастую неверным написанием или слова со схожим написанием под одним понятием. Алгоритм нечеткой группировки перед сравнением временно удаляет из извлеченных слов все гласные (кроме первой) и двойные или тройные согласные, так что тунель и тоннель попадут в одну группу. Методы нечеткой группировки, однако, не применяются, если различным терминам назначены различные типы, кроме типа <Неизвестный>.
Кроме того, можно задать минимально необходимое число символов корня при использовании нечеткой группировки. Число символов корня в термине рассчитывается как общее число символов минус число символов окончания; кроме того, в случае термина-словосочетания вычитаются детерминативы и предлоги. Например, в термине упражнения будет насчитано 9 символов корня “упражнени”, поскольку буква я на конце слова относится к окончанию множественного числа. Аналогичным образом в пакет яблок насчитывается 10 символов корня (“пакет яблок”), а в магнитола для автомобиля насчитывается 17 символов корня (“магнитол автомобил”). Этот метод подсчета используется только при проверке применимости нечеткой группировки и не используется в алгоритмах сравнения слов.
Извлекать одиночные термины Эта опция извлекает одиночные слова (одиночные термины) при условии, что слово ещё не входит в состав составного слова и если оно является либо существительным, либо нераспознанной частью речи.
Извлекать нелингвистические объекты Эта опция извлекает нелингвистические объекты, такие как телефонные номера, номера социальной страховки, время, даты, денежные единицы, цифры, проценты, адреса электронной почты и адреса HTTP. Вы можете включить или исключить те или иные типы нелингвистических объектов в разделе Нелингвистические объекты: конфигурация на вкладке Расширенные ресурсы. Выключив ненужные объекты, вы сэкономите время обработки механизмом извлечения. Дополнительную информацию смотрите в разделе Конфигурация.
Алгоритм верхнего регистра Эта опция извлекает простые и составные термины, которых нет во встраиваемых словарях, при условии, что первая буква термина - буква верхнего регистра. Это хороший способ извлечь большинство имен собственных.
По возможности группировать между собой частичные и полные личные имена Эта опция группирует между собой имена, встречающиеся в тексте по-разному. Эта возможность полезна, поскольку имена часто употребляются в начале текста в полной форме, а затем - в краткой. Эта опция пытается сопоставить каждый одиночный термин с типом <Неизвестный> последнему слову в любом составном термине, типизированном как <Личный>.
Например, если найден терм иванов, получивший вначале тип <Неизвестный>, механизм извлечения поищет составные термины в типе <Личный>, содержащие иванов как последнее слово, например, александр иванов. Эта опция применяется только к фамилии, поскольку первое имя почти никогда не извлекается как одиночный термин.
Максимум перестановок служебных слов Эта опция задает максимальное число служебных слов, которые могут быть представлены при применении метода перестановок.
Этот метод перестановок группирует как близкие словосочетания, содержащие в своем составе одни и те же неслужебные слова, если игнорировать форму слова. Например, если задать ограничение в два неслужебных слова, будут обработаны такие извлеченные словосочетания, как компания клиенту и клиенту от нашей компании. В этом примере такие словосочетания будут сгруппированы в итоговом списке понятий, поскольку считаются одинаковыми, если проигнорировать слова от нашей.
Использовать производные формы при группировании составных терминов При обработке данных большого объема выберите эту опцию, чтобы группировать составные термины по правилам образования производных форм.
Опция индекса для карты понятий Указывает, что вы хотите строить индекс карт во время извлечения, чтобы карты понятий можно было быстро нарисовать позднее. Для редактирования параметров индекса нажмите кнопку Параметры. Дополнительную информацию смотрите в разделе Построение индексов карты понятий.
Всегда показывать это диалоговое окно перед запуском извлечения Указывает, надо ли выводить диалоговое окно Параметры извлечения при каждом извлечении, выводить его только при переходе в меню Инструменты или спрашивать об этом при каждом извлечении, если вы хотите изменить какие-либо значения параметров извлечения.