Категоризация текстовых данных

В представлении Категории и понятия можно создавать категории, по сути представляющие понятия более высокого уровня или темы, которые будут захватывать ключевые идеи, знания и отношения, выраженные в тексте.

Начиная с выпуска IBM® SPSS Modeler Text Analytics 14, у категорий может также быть иерархическая структура, означающая, что они могут содержать подкатегории, а у этих подкатегорий могут быть их собственные подкатегории и так далее. Вы можете импортировать предопределенные структуры категорий (прежнее название фреймы) с иерархическими категориями, а также построить эти иерархические категории в программном продукте.

Фактически, иерархические категории позволяют построить древовидную структуру с одной или несколькими подкатегориями, чтобы сгруппировать элементы, такие как различные области понятий или тем, более точно. Простой пример можно связать с досугом; при ответе на вопрос, такой как Чем бы вам хотелось заняться, когда будет побольше времени?, на первом месте у вас могут быть такие категории, как спорт, прикладное искусство, рыбалка и так далее; под уровнем спорт у вас могут быть подкатегории, позволяющие понять, что это игры с мячом, водные виды и тому подобное.

Категории состоят из набора дескрипторов, таких как понятия, типы, паттерны и правила категорий. Все вместе эти дескрипторы применяются для определения, принадлежит ли документ или запись к данной категории. Просмотрев текст в документе или записи, можно выяснить, существуют ли какие-либо текстовые совпадения с дескриптором. Если совпадение найдено, документ/запись назначается данной категории. Этот процесс называется категоризацией.

Работать с категориями, строить их и визуально исследовать можно при помощи данных, представляемых на четырех панелях представления Категории и понятия, каждую из которых можно скрыть или показать, выбрав ее имя в меню Вид.

Панель Категории. На этой панели строят категории и управляют ими. Дополнительную информацию смотрите в разделе Панель Категории.
Панель Результаты извлечения. На этой панели исследуют извлеченные понятия и типы и работают с ними. Дополнительную информацию смотрите в разделе Результаты извлечения: Понятия и типы for more information.
Панель Визуализация. На этой панели визуально исследуют категории и то, как они взаимодействуют. Дополнительную информацию смотрите в разделе Графики и диаграммы категорий for more information.
Панель Данные. На этой панели исследуют и просматривают текст, содержащийся в документах и записях, соответствующих выбранным вариантам. Дополнительную информацию смотрите в разделе Панель Данные for more information.

Рис. 1. Представление Категории и понятия

Вы можете начать с набора категорий из пакета анализа текста (text analysis package, TAP) или импортировать файл предопределенных категорий, но может также потребоваться и создать свои собственные категории. Категории можно создать автоматически, сгенерировав их и их дескрипторы при помощи надежного набора автоматизированных методов программного продукта, где используются результаты извлечения (понятия, типы и паттерны). Категории можно также создать вручную при помощи дополнительных аналитических наработок, которые у вас могут быть. Однако создание категорий вручную и их точная настройка возможны только при помощи интерактивной инструментальной среды. Дополнительную информацию смотрите в разделе Узел Text Mining: вкладка Модель. Создать определения категорий вручную можно, перетащив в категории результаты извлечения. Эти категории или любую пустую категорию можно усилить, добавив в нее правила категорий, применив ваши собственные предопределенные категории или их сочетание.

Каждый из методов и способов хорошо подходит для определенных типов данных и ситуаций, но часто будет полезен и для объединения методов в этом же анализе с целью захвата всего диапазона документов или записей. В ходе категоризации, возможно, вы увидите другие изменения, подлежащие внесению в лингвистические ресурсы.