Węzeł Web Feed
Węzeł Web Feed może być używany do przygotowywania danych z kanałów informacyjnych WWW na potrzeby eksploracji tekstu. Ten węzeł przyjmuje kanały informacyjne WWW w dwóch formatach:
- Format RSS. RSS to prosty standaryzowany format oparty na XML dla treści WWW. Adres URL dla tego formatu wskazuje na stronę, na której znajduje się zestaw dowiązanych artykułów, takich jak syndykowane źródła wiadomości i blogi. RSS jest formatem standaryzowanym, dlatego każdy dowiązany artykuł jest automatycznie identyfikowany i traktowany jako osobny rekord w wynikowym strumieniu danych. Nie są wymagane żadne dodatkowe dane wejściowe umożliwiające identyfikowanie istotnych danych tekstowych oraz rekordów z kanału informacyjnego, chyba że względem tekstu zastosowano technikę filtrowania.
- Format HTML. Na karcie Input można zdefiniować jeden lub większą liczbę adresów URL do stron HTML. Następnie na karcie Records należy zdefiniować znacznik początku rekordu, a także wskazać znaczniki ograniczające treść docelową i przypisać te znaczniki do wybranych pól wyjściowych (opis, tytuł, data modyfikacji itp.). Więcej informacji zawiera temat Węzeł Web Feed: karta Records.
Ważne! Jeśli informacje mają być pobierane z sieci WWW za pośrednictwem serwera proxy, należy w pliku net.properties włączyć serwer proxy zarówno dla klienta, jak i serwera IBM® SPSS Modeler Text Analytics. Szczegółowe instrukcje postępowania znajdują się w samym pliku. Dotyczy to sytuacji, w której dostęp do sieci WWW odbywa się za pośrednictwem węzła Web Feed lub pobierana jest licencja na oprogramowanie SDL Software as a Service (SaaS), ponieważ odpowiednie połączenia przechodzą przez Java™.
Wspomniany plik domyślnie znajduje się w lokalizacji C:\Program Files\IBM\SPSS\Modeler\18.3.0\jre\lib\net.properties.
Wynikiem tego węzła jest zestaw pól używanych do opisywania rekordów. Pole Description jest często używane, ponieważ zawiera większość zawartości tekstowej. Jednak użytkownik może być również zainteresowany innymi polami, na przykład krótkim opisem rekordu (pole Short Desc) lub tytułem rekordu (pole Title). Dowolne pola wyjściowe można wybrać jako dane wyjściowe dla następnego w kolejności węzła Text Mining.
Węzeł ten znajduje się na karcie IBM SPSS Modeler Text Analytics palety węzłów w oknie IBM SPSS Modeler. Więcej informacji zawiera temat Węzły produktu IBM SPSS Modeler Text Analytics.