Informacje o eksploracji tekstu

Coraz większa ilość informacji jest dziś przechowywana w formatach nieustrukturyzowanych lub częściowo ustrukturyzowanych, takich jak wiadomości e-mail od klientów, notatki konsultantów infolinii, odpowiedzi na otwarte pytania ankietowe, kanały informacyjne, formularze WWW itd. Ta obfitość informacji sprawia, że wiele organizacji staje przed problemem ich zbierania, eksplorowania i wykorzystania.

Eksploracja tekstu to proces polegający na analizowaniu zbiorów materiałów tekstowych w celu wychwycenia w nich najważniejszych pojęć, tematów i motywów oraz ujawnienia ukrytych relacji i trendów bez uprzedniej znajomości konkretnych wyrazów lub terminów, których autorzy tekstu użyli do wyrażenia tych pojęć. Eksploracja tekstu niekiedy niesłusznie mylona jest z wyszukiwaniem informacji, jest jednak zupełnie innym procesem. Precyzyjne wyszukiwanie i niezawodne przechowywanie informacji jest olbrzymim wyzwaniem; równie ważnymi procesami jest wyodrębnianie wysokiej jakości treści, terminologii i relacji ukrytych w tych informacjach oraz zarządzanie nimi.

Eksploracja tekstu a eksploracja danych

Wynikiem lingwistycznej eksploracji każdego pojedynczego tekstu, np. artykułu, jest indeks pojęć oraz informacje o tych pojęciach. Te oczyszczone i ustrukturyzowane informacje można powiązać z innymi źródłami danych, by uzyskać odpowiedzi na takie pytania, jak:

Które pojęcia występują razem?
Z jakimi innymi pojęciami są powiązane?
Jakie kategorie wyższego poziomu można utworzyć na podstawie wyodrębnionych informacji?
Co można przewidzieć na podstawie pojęć lub kategorii?
Jak można przewidzieć zachowania na podstawie pojęć lub kategorii?

Łączne zastosowanie technik eksploracji tekstu i eksploracji danych umożliwia bardziej pogłębioną analizę informacji niż operowanie wyłącznie na danych ustrukturyzowanych albo wyłącznie na danych nieustrukturyzowanych. Taki proces zwykle składa się z następujących etapów:

Identyfikacja tekstu do eksploracji. Przygotowanie tekstu do eksploracji. Jeśli tekst jest zapisany w wielu plikach — zapisanie plików w jednym miejscu. W przypadku baz danych — określenie, w których polach (zmiennych) znajduje się tekst.
Eksploracja tekstu i wyodrębnienie danych ustrukturyzowanych. Zastosowanie algorytmów eksploracji do tekstu źródłowego.
Zbudowanie modeli pojęć i kategorii. Zidentyfikowanie kluczowych pojęć i/lub uklasyfikowanie. Zwykle wynikiem eksploracji danych nieustrukturyzowanych jest bardzo duża liczba pojęć. Identyfikacja najlepszych pojęć i kategorii, które należałoby wykorzystać do oceny.
Analiza danych ustrukturyzowanych. Zastosowanie tradycyjnych technik eksploracji danych, takich jak tworzenie i analiza skupień, klasyfikacja i modelowanie predykcyjne do ujawnienia relacji między pojęciami. Scalenie wyodrębnionych pojęć z pozostałymi danymi ustrukturyzowanymi w celu prognozowania przyszłych zachowań na podstawie pojęć.

Analiza i kategoryzacja tekstu

Analiza tekstu, która jest jedną z postaci analizy jakościowej, polega na wyodrębnieniu użytecznych informacji z tekstu , aby możliwe było pogrupowanie kluczowych idei i pojęć zawartych w tekście w odpowiednią liczbę kategorii. Analizę tekstu można prowadzić na tekstach dowolnego rodzaju i dowolnej długości, jednak strategie analizy będą różne w zależności od charakteru tekstu.

Krótsze rekordy lub dokumenty najłatwiej poddają się kategoryzacji, ponieważ nie są tak bardzo złożone i zwykle zawierają mniej niejednoznacznych wyrazów i odpowiedzi. Na przykład jeśli poprosimy respondentów o wskazanie trzech ulubionych form spędzania wakacji w krótkiej odpowiedzi na pytanie otwarte, to możemy spodziewać się wielu krótkich odpowiedzi, takich jak opalanie się na plaży, zwiedzanie parków narodowych lub nicnierobienie. Z kolei dłuższe, otwarte odpowiedzi mogą być złożone i długie, zwłaszcza jeśli respondenci są wykształceni, zmotywowani i mają dość czasu na wypełnienie kwestionariusza. Jeśli poprosimy respondentów o opisanie ich przekonań politycznych lub analizujemy blogi o tematyce politycznej, możemy spodziewać się długich komentarzy na przeróżne tematy oraz bardzo różnych stanowisk.

Możliwość wyodrębniania kluczowych pojęć i definiowania wartościowych analitycznie kategorii na podstawie dłuższych tekstów w bardzo krótkim czasie jest najważniejszą korzyścią ze stosowania produktu IBM® SPSS Modeler Text Analytics. Korzyść ta wynika z zastosowania kombinacji zautomatyzowanych technik lingwistycznych i statystycznych w celu uzyskania najbardziej wiarygodnych wyników na każdym etapie procesu analizy tekstu.

Przetwarzanie lingwistyczne i przetwarzanie języka naturalnego (NLP)

Głównym problemem przy pracy z tekstem nieustrukturyzowanym jest brak standardowych reguł pisania tekstu w sposób zrozumiały dla komputera. Wypowiedzi językowe, a tym samym także znaczenia, bardzo różnią się między dokumentami i fragmentami tekstu. Jedynym sposobem na precyzyjne wyszukanie i uporządkowanie informacji w takich danych nieustrukturyzowanych jest analiza wypowiedzi i interpretacja ich znaczenia. Istnieje kilka zautomatyzowanych metod wyodrębniania pojęć z informacji nieustrukturyzowanych. Strategie te można ogólnie podzielić na dwie grupy: lingwistyczne i nielingwistyczne.

Niektóre organizacje próbowały stosować zautomatyzowane rozwiązania nielingwistyczne oparte na statystyce i sieciach neuronowych. Rozwiązania te, gdy zostaną zaimplementowane w systemie komputerowym, przeglądają i kategoryzują kluczowe pojęcia szybciej niż ludzie. Niestety, dokładność wyników uzyskiwanych za pomocą tych rozwiązań jest raczej niska. Większość systemów statystycznych po prostu zlicza wystąpienia wyrazów i oblicza ich statystyczne bliskości do pojęć pokrewnych. Systemy takie generują liczne wyniki bezwartościowe (tzw. szum) i nie wychwytują wyników, które powinny znaleźć (tzw. cisza).

Aby skompensować tę ograniczoną dokładność w niektórych rozwiązaniach stosuje się złożone reguły nielingwistyczne, które pomagają w odróżnianiu wyników istotnych od nieistotnych. Takie techniki nazywa się eksploracją tekstu w oparciu o reguły.

Natomiast lingwistyczna eksploracja tekstu polega na zastosowaniu technik przetwarzania języka naturalnego (NLP — natural language processing), czyli komputerowej analizy ludzkich wypowiedzi, do analizy wyrazów, fraz i składni lub struktury tekstu. System, który wykorzystuje NLP, może inteligentnie wyodrębniać pojęcia, a wśród nich frazy złożone. Co więcej, znajomość języka tekstu umożliwia klasyfikowanie pojęć w grupy pojęć pokrewnych, takich jak produkty, organizacje lub osoby, na podstawie znaczenia i kontekstu.

Lingwistyczna eksploracja tekstu znajduje znaczenia w tekście podobnie, jak robią to ludzie — rozpoznając różne formy wyrazów jako bliskoznaczne i analizując strukturę zdań będącą rusztowaniem, na którym opiera się interpretacja tekstu. Ta strategia jest równie szybka i ekonomiczna, jak systemy statystyczne, ale oferuje znacznie większą dokładność i wymaga mniejszego zaangażowania człowieka.

Aby zilustrować różnicę między statystyczną a lingwistyczną strategią wyodrębniania,zobaczmy, jakie wyniki wygeneruje każda z tych strategii w odpowiedzi na pytanie o powielanie dokumentów. Zarówno rozwiązanie statystyczne, jak i lingwistyczne musi rozwinąć wyraz powielanie, by uwzględnić jego synonimy, takie jak kopiowanie i reprodukcja. Nieuwzględnienie synonimów prowadziłoby do potencjalnego pominięcia ważnych informacji. Jeśli rozwiązanie statystyczne spróbuje wyszukać inne terminy o tym samym znaczeniu, to prawdopodobnie zwróci także termin birth, generując liczne nieistotne wyniki. Interpretacja języka pozwala pokonać niejednoznaczności, czyniąc z lingwistycznej eksploracji tekstu strategię z definicji bardziej niezawodną.

Zrozumienie działania procesu wyodrębniania pomoże w podejmowaniu kluczowych decyzji dotyczących optymalizacji zasobów lingwistycznych (biblioteki, typy, synonimy itd.). Oto etapy procesu wyodrębniania:

Przekształcenie danych źródłowych do formatu standardowego
Identyfikacja terminów kandydackich
Identyfikacja klas równoważności i integracja synonimów
Przypisanie typów
Indeksowanie, a następnie — w razie potrzeby — dopasowanie wzorców przy użyciu dodatkowego analizatora.

Etap 1. Przekształcenie danych źródłowych do formatu standardowego

W pierwszym etapie zaimportowane dane są przekształcane do jednolitego formatu, który może być używany do dalszej analizy. To przekształcenie odbywa się wewnętrznie i nie powoduje zmiany oryginalnych danych.

Etap 2. Identyfikacja terminów kandydackich

Ważne jest zrozumienie roli zasobów lingwistycznych w identyfikacji terminów kandydackich podczas wyodrębniania lingwistycznego. Zasoby lingwistyczne są używane przy każdym wyodrębnianiu. Mają postać szablonów, bibliotek i zasobów skompilowanych. Biblioteki zawierają listy wyrazów, relacji i inne informacje służące do definiowania i optymalizacji wyodrębniania. Skompilowanych zasobów nie można przeglądać ani edytować. Jednak pozostałe zasoby można edytować w edytorze Template Editor lub, jeśli pracujesz na interaktywnym pulpicie roboczym, w edytorze Resource Editor.

Zasoby skompilowane to podstawowe, wewnętrzne komponenty mechanizmu wyodrębniania w produkcie IBM SPSS Modeler Text Analytics . Do zasobów tych należy ogólny słownik zawierający listę form podstawowych z kodami części mowy (rzeczownik, czasownik, przymiotnik itd.).

Oprócz tych zasobów skompilowanych razem z produktem dostarczanych jest kilka bibliotek, które można wykorzystać jako dopełnienie definicji typów i pojęć zawartych w zasobach skompilowanych, a także jako źródła synonimów. Biblioteki te — oraz biblioteki utworzone samodzielnie przez użytkownika — składają się z kilku słowników. Są to: słowniki typów, słowniki synonimów oraz słowniki wykluczeń.

Po zaimportowaniu i przekształceniu danych mechanizm wyodrębniania rozpoczyna wykrywanie terminów kandydackich do wyodrębnienia. Terminy kandydackie to wyrazy lub grupy wyrazów identyfikujące pojęcia w tekście. W trakcie przetwarzania tekstu pojedyncze wyrazy (terminy pojedyncze) i złożenia wyrazów (terminy wielowyrazowe) są identyfikowane na podstawie wzorców części mowy. Następnie poprzez analizę powiązań opartych na sentymencie identyfikowane są kandydackie słowa kluczowe sentymentu.

Uwaga: Terminy w słowniku reprezentują ogólne wymienione powyżej skompilowanej listy wszystkich słów, które są prawdopodobnie nieinteresujące lub lingwistycznie niejednoznaczny jako uniterms. Wyrazy te są wykluczane z wyników wyodrębniania terminów pojedynczych. Jednak są ponownie analizowane przy określaniu części mowy lub wyszukiwaniu dłuższych terminów wielowyrazowych.

Etap 3. Identyfikacja klas równoważności i integracja synonimów

Po zidentyfikowaniu terminów pojedynczych i terminów wielowyrazowych oprogramowanie, korzystając ze słownika normalizacji, tworzy klasy równoważności. Klasa równoważności jest podstawową formą frazy lub pojedynczą formą dwóch wariantów tej samej frazy. Klasy równoważności przypisuje się po to, by na przykład frazy side effect i 副作用 nie były traktowane jako odrębne pojęcia. Aby określić, którego pojęcia użyć w klasie równoważności, tj. czy terminem wiodącym ma być side effect, czy 副作用, mechanizm wyodrębniania stosuje poniższe reguły w kolejności, w jakiej zostały tutaj wymienione:

Forma określona przez użytkownika w bibliotece.
Najczęściej używana forma, zgodnie z prekompilowanymi zasobami.

Etap 4. Przypisanie typów

Następnie do wyodrębnionych pojęć przypisywane są typy. Typ jest semantyczną grupą pojęć. Na tym etapie używane są zarówno zasoby skompilowane, jak i biblioteki. Typy odzwierciedlają pojęcia poziomowe, kwalifikatory i określenia o wydźwięku pozytywnym i negatywnym, imiona, miejsca, organizacje i nie tylko. Więcej informacji zawiera temat Słowniki typów.

Systemy lingwistyczne są zależne od ilości wiedzy — im więcej informacji zawierają ich słowniki, tym wyższa jest jakość wyników. Odpowiednia modyfikacja zawartości słowników, np. definicji synonimów, może uprościć uzyskane wyniki. Często mamy tu do czynienia z procesem iteracyjnym, który jest niezbędny do precyzyjnego wyszukania pojęć. Zasadniczym elementem programu IBM SPSS Modeler Text Analytics jest mechanizm przetwarzania języka naturalnego (NLP).