Syntaxanalyse
Der Block „ Watson “ für die Syntaxanalyse in der natürlichen Sprachverarbeitung fasst Funktionen zur Syntaxanalyse zusammen.
Blocknamen
syntax_izumo_<language>_stocksyntax_izumo_<language>_stock-dp
Unterstützte Sprachen
Der Block „Syntaxanalyse“ ist für die folgenden Sprachen verfügbar. Eine Liste der Sprachcodes und der entsprechenden Sprachen finden Sie unter „Sprachcodes “.
Sprachencodes für Modell syntax_izumo_<language>_stock: af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw
Sprachencodes für Modell syntax_izumo_<language>_stock-dp: af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh
| Aufgabe | Unterstützte Sprachcodes |
|---|---|
| Tokenisierung | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
| Wortartkennzeichnung | af, ar, bs, ca, cs, da, de, nl, nn, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, pl, pt, ro, ru, sk, sr, sv |
| Reduktion auf die Grundform | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
| Satzerkennung | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
| Absatzerkennung | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
| Abhängigkeitsanalyse | af, ar, bs, cs, da, de, en, es, fi, fr, hi, hr, it, ja, nb, nl, nn, pt, ro, ru, sk, sr, sv |
Funktionen
Verwenden Sie diesen Block, um Aufgaben wie Satzerkennung, Tokenisierung, Wortart-Tagging, Lemmatisierung und Dependenzanalyse in verschiedenen Sprachen durchzuführen. Für die meisten Tasks benötigen Sie wahrscheinlich nur Satzerkennung, Zerlegung in Tokens und Wortarttagging. Verwenden Sie für diese Anwendungsfälle das Modell syntax_model_xx_stock . Wenn Sie das Abhängigkeitsparsing ausführen möchten, verwenden Sie das Modell syntax_model_xx_stock-dp .
Die Analyse für die Wortartkennzeichnung (POS-Tagging) und die Dependenzbeziehungen orientiert sich am Tagset „Universal Parts of Speech“ ( Universal POS Tags ) und am Tagset „Universal Dependencies“ v2 ( Universal Dependency Relations ).
Die folgende Tabelle zeigt Ihnen die Funktionen der einzelnen Aufgaben anhand desselben Beispiels sowie das Ergebnis der Analyse.
| Funktionen | Beispiele | Parser-Attribute |
|---|---|---|
| Tokenisierung | „Ich mag Montage nicht“ --> „Ich“, „mag“, „nicht“, „Montage“ | Jeton |
| Erkennung der Wortart | „Ich mag Montage nicht“ --> „ich“\POS_PRON, „mag“\POS_VERB, „nicht“\POS_PART, „Montage“\POS_PROPN | part_of_speech (Wortart) |
| Reduktion auf die Grundform | „Ich mag Montage nicht“ --> „Ich“, „mag“, „nicht“, „Montag“ | Lemma |
| Abhängigkeitsanalyse | „Ich mag Montage nicht“ --> „Ich“ – Subjekt – „mag“ – Objekt – „Montage“ | Abhängigkeit |
| Satzerkennung | „Ich mag Montage nicht“ --> gibt diesen Satz zurück | Satz |
| Absatzerkennung (Derzeit befindet sich die Absatzerkennung noch im Versuchsstadium und liefert ähnliche Ergebnisse wie die Satzerkennung.) | „Ich mag Montage nicht“ --> gibt diesen Satz als Absatz zurück | Satz |
Abhängigkeiten von anderen Blöcken
Keine
Codebeispiel
import watson_nlp
# Load Syntax for English
syntax_model = watson_nlp.load('syntax_izumo_en_stock')
# Detect tokens, lemma and part-of-speech
text = 'I don\'t like Mondays'
syntax_prediction = syntax_model.run(text, parsers=('token', 'lemma', 'part_of_speech'))
# Print the syntax result
print(syntax_prediction)
Ausgabe des Codebeispiels:
{
"text": "I don't like Mondays",
"producer_id": {
"name": "Izumo Text Processing",
"version": "0.0.1"
},
"tokens": [
{
"span": {
"begin": 0,
"end": 1,
"text": "I"
},
"lemma": "I",
"part_of_speech": "POS_PRON"
},
{
"span": {
"begin": 2,
"end": 4,
"text": "do"
},
"lemma": "do",
"part_of_speech": "POS_AUX"
},
{
"span": {
"begin": 4,
"end": 7,
"text": "n't"
},
"lemma": "not",
"part_of_speech": "POS_PART"
},
{
"span": {
"begin": 8,
"end": 12,
"text": "like"
},
"lemma": "like",
"part_of_speech": "POS_VERB"
},
{
"span": {
"begin": 13,
"end": 20,
"text": "Mondays"
},
"lemma": "Monday",
"part_of_speech": "POS_PROPN"
}
],
"sentences": [
{
"span": {
"begin": 0,
"end": 20,
"text": "I don't like Mondays"
}
}
],
"paragraphs": [
{
"span": {
"begin": 0,
"end": 20,
"text": "I don't like Mondays"
}
}
]
}