Sieci semantyczne
W tej wersji produktu technika sieci semantycznych jest dostępna tylko w przypadku tekstów w języku angielskim.
Ta metoda tworzy kategorie przy użyciu wbudowanej sieci relacji między wyrazami. Z tego powodu ta technika może generować bardzo dobre wyniki, gdy terminy są konkretne i nie są zbyt niejednoznaczne. Jednak nie należy oczekiwać, że technika ta znajdzie wiele powiązań między wysoce technicznymi/specjalistycznymi pojęciami. W przypadku takich pojęć może okazać się, że techniki włączania pojęć i wywodzenia rdzeni pojęć będą bardziej użyteczne.
Działanie techniki sieci semantycznych
Istotą techniki sieci semantycznych jest wykorzystanie znanych relacji między wyrazami do tworzenia kategorii synonimów lub hiponimów. Z hiponimem mamy do czynienia, gdy jedno pojęcie jest rodzajem drugiego pojęcia, tak że istnieje relacja hierarchiczna, znana również jako relacja ISA. Na przykład, jeśli animal jest pojęciem, to
cat i kangaroo są hiponimami animal, ponieważ są rodzajami zwierząt.
Oprócz synonimów i hiponimów technika sieci semantycznej analizuje również część powiązań i całe powiązania między pojęciami typu <Location>. Na przykład technika ta zgrupuje pojęcia normandy, provence i france w jednej kategorii, ponieważ Normandia i Prowansja są regionami Francji.
Działanie techniki sieci semantycznych rozpoczyna się od identyfikacji możliwych znaczeń poszczególnych terminów w sieci semantycznej. Gdy pojęcia zostaną zidentyfikowane jako synonimy lub hiponimy, są grupowane w jedną kategorię. Na przykład opisywana technika utworzyłaby jedną kategorię zawierającą trzy pojęcia: eating apple, dessert apple i granny smith, ponieważ sieć semantyczna zawiera informacje o tym, że: 1) dessert
apple jest synonimem eating
apple, 2) granny smith jest rodzajem eating apple (zatem jest hiponimem eating apple).
Wiele pojęć, zwłaszcza jednowyrazowych, ma charakter niejednoznaczny, jeśli rozpatruje się je osobno. Na przykład pojęcie buffet może oznaczać rodzaj posiłku lub mebel. Jeśli zbiór pojęć zawiera pojęcia meal, furniture i buffet, to algorytm musi wybrać pomiędzy zgrupowaniem pojęcia buffet z pojęciem meal albo furniture. Należy pamiętać, że w niektórych przypadkach wybory dokonane przez algorytm mogą nie być odpowiednie w kontekście konkretnego zbioru rekordów lub dokumentów.
W przypadku niektórych typów danych technika sieci semantycznych działa lepiej niż włączanie pojęć. Obie te techniki rozpoznają, że apple
pie jest rodzajem pie, ale tylko technika sieci semantycznej rozpozna, że tart również jest rodzajem pie.
Sieci semantyczne będą działać w połączeniu z innymi technikami. Załóżmy na przykład, że wybrano zarówno technikę sieci semantycznych, jak i włączania pojęć, a sieć semantyczna zgrupowała pojęcie teacher z pojęciem tutor (ponieważ tutor jest rodzajem teacher). Algorytm włączania może zgrupować pojęcie graduate tutor z pojęciem tutor, a w rezultacie współpracy dwóch algorytmów powstanie kategoria wynikowa zawierająca wszystkie trzy pojęcia: tutor, graduate tutor i teacher.
Opcje techniki sieci semantycznych
Istnieje szereg dodatkowych ustawień, które mogą być interesujące dla użytkownika tej techniki.
- Zmień wartość Maximum search distance. Wybierz, jak daleko ma być prowadzone wyszukiwanie, zanim wygenerowane zostaną kategorie. Im mniejsza wartość, tym mniej wyników zostanie wygenerowanych, jednak wyniki te będą mniej zaszumione i z większym prawdopodobieństwem będą istotnie powiązane ze sobą nawzajem. Im większa wartość, tym więcej wyników zostanie wygenerowanych, ale wyniki te mogą być mniej wiarygodne lub istotne.
Na przykład, w zależności od odległości, algorytm algorytm przeszukuje pojęcia począwszy od Danish pastry do coffee roll (pojęcie nadrzędne), potem bun (pojęcie nadrzędne pojęcia nadrzędnego), a potem bread.
Zmniejszenie odległości wyszukiwania umożliwia tworzenie mniejszych kategorii, które mogą być łatwiejsze w praktycznym zastosowaniu, a także bywa przydatne, gdy generowane kategorie są zbyt obszerne lub grupują zbyt wiele pojęć.
Ważne! Dodatkowo zaleca się, aby w przypadku stosowania tej techniki nie używać opcji Accommodate spelling errors for a minimum root character limit of (zdefiniowanej na karcie Expert węzła lub w oknie dialogowym Extract) dla grupowania rozmytego, ponieważ niektóre grupy mogą mieć bardzo niekorzystny wpływ na wyniki.