Wywodzenie rdzenia pojęcia

Technika wywodzenia rdzenia pojęcia tworzy kategorie, wybierając jedno pojęcie i wyszukując pojęcia mu pokrewne poprzez analizę relacji morfologicznych między komponentami tych pojęć. Komponent jest wyrazem. Technika ta próbuje grupować pojęcia, analizując końcówki (przyrostki) każdego komponentu w pojęciu i znajdując inne pojęcia, które mogą być z tych komponentów wywiedzione. Zakłada się bowiem, gdy słowa pochodzą od siebie, to prawdopodobnie są bliskie znaczeniowo. W celu identyfikacji końcówek używane są reguły wewnętrzne właściwe dla danego języka. Na przykład pojęcie opportunities to advance zostałoby połączone w grupę z pojęciami opportunity for advancement i advancement opportunity.

Wywodzenie rdzeni pojęć można zastosować do dowolnego tekstu. Samodzielnie technika ta tworzy względnie mało kategorii, a każda kategoria zawiera zwykle mało pojęć. Pojęcia w każdej kategorii są synonimami lub pojęciami pokrewnymi sytuacyjnie. Algorytm ten może być pomocny nawet w przypadku ręcznego budowania kategorii; synonimy znalezione przez algorytm mogą być synonimami właśnie tych pojęć, którymi użytkownik jest szczególnie zainteresowany.

Uwaga: Można zapobiec grupowaniu pojęć, określając je jawnie. Więcej informacji zawiera temat Zarządzanie parami wyjątków powiązań.

Komponentyzacja i usuwanie odmiany terminów

Podczas wywodzenia rdzeni pojęć terminy w pierwszej kolejności są dzielone na komponenty (wyrazy), a następnie komponenty te są pozbawiane odmiany. Podczas stosowania tej techniki pojęcia i powiązane z nimi terminy są ładowane i dzielone na komponenty na podstawie separatorów, takich jak spacje, łączniki i apostrofy. Na przykład termin system administrator jest dzielony na składniki {administrator, system}.

Jednak niektóre części oryginalnego terminu mogą nie zostać wykorzystane. Są to tzw. wyrazy ignorowane. W języku angielskim do komponentów ignorowanych mogą należeć wyrazy: a, and, as, by, for, from, in, of, on, or, the, to i with.

Na przykład termin examination of the data złożony jest z komponentów {data, examination}, ponieważ wyrazy of i the są ignorowane. Ponadto zbiór komponentów jest nieuporządkowany. W ten sposób następujące trzy składniki mogą być równoważne: cough relief for child, child relief from a cough i relief of child cough, ponieważ wszystkie mają ten sam zbiór komponentów {child, cough, relief}. Gdy para terminów zostanie zidentyfikowana jako równoważna, odpowiednie pojęcia są łączone w celu utworzenia nowego pojęcia, które odwołuje się do wszystkich terminów.

Ponadto, ponieważ komponenty składnika mogą być odmieniane automatycznie, wewnętrznie stosowane reguł języka w celu zidentyfikowania terminów równoważnych niezależnie od wariantów odmiany, np. liczby mnogiej. W ten sposób terminy level of support i support levels mogą być identyfikowane jako równoważne, ponieważ pojedyncza forma rzeczownika po usunięciu odmiany brzmi level.

Jak działa wywodzenie rdzenia pojęcia

Po komponentyzacji terminów i pozbawieniu jej odmiany (patrz poprzednia sekcja) algorytm wywodzenia rdzeni pojęć analizuje końcówki (przyrostki) komponentów, aby znaleźć rdzeń komponentu, a następnie grupuje pojęcia z innymi pojęciami, które mają takie same lub podobne rdzenie. Końcówki są identyfikowane przy użyciu zestawu reguł lingwistycznych charakterystycznych dla języka tekstu. Na przykład w języku angielskim istnieje reguła mówiąca, że termin pojęcia kończący się przyrostkiem ical może być wywiedziony z pojęcia o tym samym rdzeniu i końcówce ic. Przy użyciu tej reguły (po usunięciu odmiany) algorytm będzie mógł zgrupować pojęcia epidemiologic study i epidemiological studies.

Ponieważ terminy są już podzielone na komponenty, a komponenty do pominięcia (na przykład in i of) zostały już zidentyfikowane, algorytm wywodzenia rdzeni pojęć potrafi także zgrupować pojęcia studies in epidemiology i epidemiological studies.

Zestaw reguł wywodzenia rdzeni pojęć został wybrany w taki sposób, że większość pojęć grupowanych według tego algorytmu stanowi synonimy: pojęcia epidemiologic studies, epidemiological studies i studies in epidemiology są terminami równoważnymi. Aby zwiększyć kompletność wyników wprowadzono pewne reguły wywodzenia, które umożliwiają algorytmowi grupowanie pojęć pokrewnych sytuacyjnie. Na przykład algorytm może zgrupować pojęcia empire builder i empire building.