Об исследовании текста
Сегодня все большее количество информации хранится в неструктурированных и полуструктурированных форматах, например, сообщения электронной почты заказчиков, замечания центра обработки вызовов, свободные ответы в соцопросах, ленты новостей, веб-формы и так далее. Это обилие информации ставит многие организации перед непростым вопросом "Как нам собирать, анализировать и с выгодой использовать эту информацию?"
Исследование текста - это процесс исследования наборов текстовых материалов с целью фиксации ключевых понятий и тем и выявления скрытых взаимосвязей и тенденций, при котором не требуется знать точные слова и термины, использованные авторами для формулировки этих понятий. Исследование текста иногда путают с поиском информации, хотя эти понятия существенно различны. Хотя точное получение и хранение информации - огромная проблема, извлечение контента высокого качества и управление им, терминология и взаимосвязи, содержащиеся в информации, - это решающие и критически важные процессы.
Исследование текста и исследование данных
Для каждого отдельного текста лингвистическое исследование текста возвращает индекс понятий вместе с информацией об этих понятиях. Эта очищенная и структурированная информация может быть объединена с другими источниками данных для работы с такими вопросами, как:
- Какие понятия встречаются вместе?
- С чем еще они связаны?
- Какие категории более высокого уровня можно создать на основе извлеченной информации?
- Что предсказывают понятия или категории?
- Как понятия или категории предсказывают поведение?
Объединение исследования текста с исследованием данных дает лучшее понимание, чем можно получить, исходя только из структурированных или неструктурированных данных. Этот процесс обычно включает следующие шаги:
- Определите, какой текст будет исследоваться. Подготовьте текст для исследования. Если текст содержится в нескольких файлах, сохраните эти файлы в одном месте. Для баз данных определите поле, содержащее текст.
- Исследуйте текст и извлеките структурированные данные. Примените алгоритмы исследования текста к исходному тексту.
- Постройте модели понятий и категорий. Определите ключевые понятия и/или создайте категории. Число понятий, возвращенных из неструктурированных данных, обычно очень велико. Определите лучшие понятия и категории для оценки.
- Проанализируйте структурированные данные. Используйте традиционные методы исследования данных, такие как кластеризация, классификация и прогностическое моделирование, для обнаружения взаимосвязей между понятиями. Объедините извлеченные понятия с другими структурированными данными для прогноза будущего поведения на основе понятий.
Анализ и категоризация текста
Анализ текста, разновидность качественного анализа, - это извлечение полезной информации из текста таким образом, чтобы ключевые идеи и понятия, содержащиеся в этом тексте, можно было сгруппировать в приемлемое число категорий. Анализ текста может применяться к текстам любого типа и объема, хотя подходы к анализу могут несколько различаться.
Короткие записи или документы проще всего категоризировать, поскольку они менее сложны и обычно содержат меньше неоднозначных слов и ответов. Например, при свободных ответах на вопросы соцопроса, если людям предлагается назвать три любимых занятия во время отпуска, можно ожидать множества коротких ответов, таких как ходить на пляж, посещать национальные парки или ничего не делать. С другой стороны, более длинные свободные ответы могут оказаться весьма сложными и пространными, особенно если респонденты образованны, мотивированы и располагают достаточным временем для заполнения опросного листа. Если мы попросим людей рассказать об их политических взглядах в соцопросе или порассуждать о политике в блоге, можно ожидать объемных комментариев по самым разным вопросам и проблемам.
Способность очень быстро извлекать ключевые понятия и создавать содержательные категории для таких сравнительно длинных текстовых источников - это важнейшее преимущество работы с IBM® SPSS Modeler Text Analytics. Это преимущество достигается посредством комбинирования лингвистических и статистических методов автоматической обработки для достижения максимально надежных результатов на каждой стадии процесса анализа текста.
Обработка лингвистической информации и текстов на естественном языке
Главная проблема при управлении любыми неструктурированными текстовыми данными - отсутствие стандартных правил написания текстов, так чтобы компьютер мог понимать их. Язык, а тем самым и значения, варьируют для каждого документа и каждой части текста. Единственный способ точно получить и организовать такие неструктурированные данные - это проанализировать сам язык и таким образом раскрыть его значение. Существует несколько различных автоматизированных подходов к извлечению понятий из неструктурированной информации. Эти подходы можно подразделить на два вида - лингвистические и нелингвистические.
Некоторые организации пытались применить автоматизированные нелингвистические решения, основанные на статистике и нейронных сетях. Используя компьютерные технологии, эти решения могут просматривать данные и категоризировать ключевые понятия быстрее, чем это делает человек. К сожалению, точность таких решений довольно низка. Большинство систем, действующих на основе статистики, просто подсчитывает число вхождений слов и вычисляет их статистическую близость к связанным понятиям. Они выдают много бесполезных (нерелевантных) результатов или шума, пропуская при этом действительно ценную информацию (так называемое информационное молчание).
Чтобы компенсировать ограниченную точность, некоторые решения включают сложные нелингвистические правила, которые помогают отличить полезные результаты от бесполезных. Такой подход называется исследованием текста на основе правил.
С другой стороны, исследование текста на лингвистической основе применяет принципы обработки текста на естественном языке (natural language processing, NLP) — исследование человеческих языков компьютерными методами - к анализу слов, фраз, синтаксиса или структуры текста. Система с интегрированной в нее обработкой естественного языка (NLP) может аналитически извлекать понятия, включая сложные синтагмы. Более того, знание базового языка позволяет классифицировать понятия по смыслу и контексту, объединяя их в соответствующие группы, например, продуктов, организаций или людей.
Исследование текста на лингвистической основе находит в тексте значения во многом так же, как это делает человек - посредством распознавания различных словоформ с общим значением и анализа структуры предложений, создавая основу для понимания текста. Этот подход сочетает быстродействие и экономическую эффективность систем на основе статистики со значительно более высокой точностью, требуя при этом намного меньшего участия персонала.
Как иллюстрацию отличия статистического подхода от лингвистического в процессе извлечения, рассмотрим, каким образом тот и другой реагируют на запрос о репродуцировании документов. И статистическое, и лингвистическое решение должно раскрыть слово репродуцирование, чтобы включить такие синонимы, как копирование и воспроизведение. Без этого останется незамеченной важная информация. Однако статистическое решение пытается выполнить поиск синонимов - других слов с тем же смыслом - и захватывает термин размножение, генерируя множество посторонних результатов. Напротив, понимание языка пробивается через двусмысленность текста, так что лингвистическое исследование текста дает по определению более надежный подход.
Понимая, как работает извлечение, вы сможете осознанно принимать ключевые решения при тонкой настройке лингвистических ресурсов (библиотек, типов, синонимов и других). Шаги в процессе извлечения включают в себя:
- Преобразование исходных данных в стандартный формат
- Идентификация терминов-кандидатов
- Идентификация классов эквивалентности и интеграция синонимов
- Назначение типа
- Индексация и (если затребовано) сопоставление с паттернами при помощи вторичного анализатора
Шаг 1. Преобразование исходных данных в стандартный формат
На этом первом шаге импортируемые данные преобразуются к единому формату, пригодному для дальнейшего анализа. Такое преобразование выполняется внутренним образом; исходные данные при этом не изменяются.
Шаг 2. Идентификация терминов-кандидатов
Важно понимать роль лингвистических ресурсов при идентификации терминов-кандидатов во время лингвистического извлечения. Лингвистические ресурсы используются при каждом выполнении извлечения. Они существуют в форме шаблонов, библиотек и скомпилированных ресурсов. Библиотеки включают в себя списки слов, взаимосвязей и других сведений, определяющих или уточняющих извлечение. Скомпилированные ресурсы нельзя просматривать и редактировать. Однако остальные ресурсы можно отредактировать в Редактор шаблонов или (находясь в сеансе интерактивной инструментальной среды) в Редактор ресурсов.
Скомпилированные ресурсы - это базовые внутренние компоненты механизма извлечения в IBM SPSS Modeler Text Analytics . В эти ресурсы входит общий словарь, содержащий список базовых форм с кодами частей речи (существительных, глаголов, прилагательных и так далее).
Помимо этих скомпилированных ресурсов с продуктом поставляются несколько библиотек, которые могут использоваться в скомпилированных ресурсах в дополнение к типам и определениям понятий, а также для предложения синонимов. Эти библиотеки, а также любые созданные вами пользовательские библиотеки, состоят из ряда словарей. Это словари типов, словари синонимов и словари исключения.
После импорта и преобразования данных механизм извлечения приступает к идентификации извлекаемых терминов-кандидатов. Термины-кандидаты - это слова или группы слов, которыми в тексте обозначаются те или иные понятия. Во время обработки текстовых данных отдельные слова (отдельные термины) и составные слова (составные термины) выявляются при помощи модулей извлечения паттернов частей речи. Затем при помощи анализа текстовых связей на настроения выявляются ключевые слова-кандидаты настроений.
Шаг 3. Идентификация классов эквивалентности и интеграция синонимов
После выявления отдельных терминов-кандидатов и составных терминов-кандидатов программный продукт при помощи словаря нормализации выявляет классы эквивалентности. Класс эквивалентности - это базовая форма словосочетания или один из двух вариантов форм одного и того же словосочетания.Назначение словосочетаниям классов эквивалентности гарантирует, что такие понятия, как побочный эффект и 副作用, не будут считаться отдельными понятиями. Чтобы определить, какое понятие следует использовать для класса эквивалентности (то есть использовать ли в качестве базового термина побочный эффект или 副作用), механизм извлечения применяет следующие правила в указанном порядке:
- Пользовательская форма в библиотеке.
- Самая частая форма, определяемая предварительно скомпилированными ресурсами.
Шаг 4. Задание типа
Далее извлеченным понятиям назначаются типы. Тип объединяет понятия по их смыслу. На этом шаге используются как скомпилированные ресурсы, так и библиотеки. К типа относятся понятия высокого уровня, слова с положительной и отрицательной оценкой, имена людей, названия мест и организаций и другое. Дополнительную информацию смотрите в разделе Словари типов.
Лингвистические системы восприимчивы к знаниям: чем больше информации в их словарях, тем выше качество результатов. Изменение содержимого словарей, например, определений синонимов, может упростить итоговую информацию. Этот процесс, который часто бывает итеративным, необходим для более точного извлечения понятий. Обработка текста на естественном языке - ключевой элемент IBM SPSS Modeler Text Analytics.