Algorytmy klasyfikacji tekstu

Aby szkolić model klasyfikacji tekstu, należy wybrać odpowiedni algorytm klasyfikacji tekstu. Każdy algorytm zachowuje się inaczej, co może prowadzić do różnych wyników w przypadku zastosowania do tych samych danych.

Sekcja Planowanie klasyfikacji tekstu zawiera informacje na temat pojęć i wymagań powiązanych z modelem klasyfikacji tekstu IBM RPA.

Algorytm Bag-of-Words

Aby wygenerować ten model, należy użyć algorytmu Bag-of-Words w programie budującym modele Machine Learning .

W algorytmie Bag-of-Words używana jest częstotliwość słów. Każde słowo odnosi się do jego liczby wystąpień w zestawie treningowym. Aby sklasyfikować tekst, algorytm uwidacznia każde słowo w tekście docelowym i zanika do swojego modelu, aby sprawdzić, która tablica częstotliwości jest bardziej istotna. Używa on słownika znanych słów, które są udostępniane przez IBM RPA.

Tego modelu można użyć w przypadku konieczności klasyfikacji tekstu na podstawie częstotliwości niektórych słów zawartych w tekście. Na przykład, jeśli chcesz sklasyfikować wiadomość tekstową "Wygraj 50000, uczestnicząc w loterii". za pomocą komendy Klasyfikuj tekst , otrzymujesz dane wyjściowe, takie jak najlepszy wybór i wyniki. Zapoznaj się z poniższym przykładowym wynikiem:

Results for text classification using Bag-of-Words model:

Best choice: not spam
Best choice score: 0.75820382759259
Label and score: not spam, 0.75820382759259, , not spam
                 spam, 0.24179617240741, , spam

Algorytm N-Gram

Aby wygenerować ten model, należy użyć algorytmu N-Gram w programie budującym modele Machine Learning .

Algorytm N-Gram zachowuje się jak algorytm Bag-of-Words, ale używa sekwencji o długości 2 znaków. Sekwencja ta jest zbudowana z tekstów w zestawie treningowym. Aby sklasyfikować tekst, algorytm uwidacznia każdą sekwencję znaków w tekście docelowym i infers do swojego modelu, aby sprawdzić, która tablica częstotliwości jest bardziej istotna.

Tego modelu można użyć w celu sklasyfikowania tekstu w oparciu o sekwencję znaków, która pojawia się w tekście. Za pomocą komendy Klasyfikuj tekst można otrzymać podobne dane wyjściowe, jak wyjaśniono w algorytmie Bag-of-Words.

Algorytm klasyfikatora tekstu

Aby wygenerować ten model, należy użyć algorytmu Text Classifier w programie budującym modele Machine Learning .

Model klasyfikatora tekstu reprezentuje zestaw dokumentów tekstowych, które są uporządkowane i sklasyfikowane w katalogach oznaczonych znacznikami. Oznacza to, że każdy dokument tekstowy jest powiązany z jednym znacznikiem. Algorytm klasyfikatora tekstu łączy różne algorytmy w celu uczenia modelu. Jest to zastrzeżony algorytm IBM RPA .
Ten model może być używany do klasyfikowania wartości tekstowej zgodnie z zestawem kategorii zgodnie z konkretnym tematem.

Za pomocą komendy Klasyfikuj tekst można otrzymać podobne dane wyjściowe, jak wyjaśniono w algorytmie Bag-of-Words.

Algorytmy funkcjonalne

Produkt IBM RPA udostępnia algorytm funkcjonalny dla każdego algorytmu uczenia maszynowego. Pomimo tego, że działa on dla wszystkich języków, robi to traktowanie semantyczne specjalnie dla języka portugalskiego (Brazylia), poprzez usunięcie stopera z tekstu, np.