Syntaxanalyse

Der Block „ Watson “ für die Syntaxanalyse in der natürlichen Sprachverarbeitung fasst Funktionen zur Syntaxanalyse zusammen.

Blocknamen

  • syntax_izumo_<language>_stock
  • syntax_izumo_<language>_stock-dp

Unterstützte Sprachen

Der Block „Syntaxanalyse“ ist für die folgenden Sprachen verfügbar. Eine Liste der Sprachcodes und der entsprechenden Sprachen finden Sie unter „Sprachcodes “.

Sprachencodes für Modell syntax_izumo_<language>_stock: af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw

Sprachencodes für Modell syntax_izumo_<language>_stock-dp: af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh

Liste der unterstützten Sprachen für jede Syntaxtask
Aufgabe Unterstützte Sprachcodes
Tokenisierung af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh
Wortartkennzeichnung af, ar, bs, ca, cs, da, de, nl, nn, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, pl, pt, ro, ru, sk, sr, sv
Reduktion auf die Grundform af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh
Satzerkennung af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh
Absatzerkennung af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh
Abhängigkeitsanalyse af, ar, bs, cs, da, de, en, es, fi, fr, hi, hr, it, ja, nb, nl, nn, pt, ro, ru, sk, sr, sv

Funktionen

Verwenden Sie diesen Block, um Aufgaben wie Satzerkennung, Tokenisierung, Wortart-Tagging, Lemmatisierung und Dependenzanalyse in verschiedenen Sprachen durchzuführen. Für die meisten Tasks benötigen Sie wahrscheinlich nur Satzerkennung, Zerlegung in Tokens und Wortarttagging. Verwenden Sie für diese Anwendungsfälle das Modell syntax_model_xx_stock . Wenn Sie das Abhängigkeitsparsing ausführen möchten, verwenden Sie das Modell syntax_model_xx_stock-dp .

Die Analyse für die Wortartkennzeichnung (POS-Tagging) und die Dependenzbeziehungen orientiert sich am Tagset „Universal Parts of Speech“ ( Universal POS Tags ) und am Tagset „Universal Dependencies“ v2 ( Universal Dependency Relations ).

Die folgende Tabelle zeigt Ihnen die Funktionen der einzelnen Aufgaben anhand desselben Beispiels sowie das Ergebnis der Analyse.

Funktionalität jeder Syntaxtask auf der Basis eines Beispiels
Funktionen Beispiele Parser-Attribute
Tokenisierung „Ich mag Montage nicht“ --> „Ich“, „mag“, „nicht“, „Montage“ Jeton
Erkennung der Wortart „Ich mag Montage nicht“ --> „ich“\POS_PRON, „mag“\POS_VERB, „nicht“\POS_PART, „Montage“\POS_PROPN part_of_speech (Wortart)
Reduktion auf die Grundform „Ich mag Montage nicht“ --> „Ich“, „mag“, „nicht“, „Montag“ Lemma
Abhängigkeitsanalyse „Ich mag Montage nicht“ --> „Ich“ – Subjekt – „mag“ – Objekt – „Montage“ Abhängigkeit
Satzerkennung „Ich mag Montage nicht“ --> gibt diesen Satz zurück Satz
Absatzerkennung (Derzeit befindet sich die Absatzerkennung noch im Versuchsstadium und liefert ähnliche Ergebnisse wie die Satzerkennung.) „Ich mag Montage nicht“ --> gibt diesen Satz als Absatz zurück Satz

Abhängigkeiten von anderen Blöcken

Keine

Codebeispiel

import watson_nlp

# Load Syntax for English
syntax_model = watson_nlp.load('syntax_izumo_en_stock')

# Detect tokens, lemma and part-of-speech
text = 'I don\'t like Mondays'
syntax_prediction = syntax_model.run(text, parsers=('token', 'lemma', 'part_of_speech'))

# Print the syntax result
print(syntax_prediction)

Ausgabe des Codebeispiels:

{
  "text": "I don't like Mondays",
  "producer_id": {
    "name": "Izumo Text Processing",
    "version": "0.0.1"
  },
  "tokens": [
    {
      "span": {
        "begin": 0,
        "end": 1,
        "text": "I"
      },
      "lemma": "I",
      "part_of_speech": "POS_PRON"
    },
    {
      "span": {
        "begin": 2,
        "end": 4,
        "text": "do"
      },
      "lemma": "do",
      "part_of_speech": "POS_AUX"
    },
    {
      "span": {
        "begin": 4,
        "end": 7,
        "text": "n't"
      },
      "lemma": "not",
      "part_of_speech": "POS_PART"
    },
    {
      "span": {
        "begin": 8,
        "end": 12,
        "text": "like"
      },
      "lemma": "like",
      "part_of_speech": "POS_VERB"
    },
    {
      "span": {
        "begin": 13,
        "end": 20,
        "text": "Mondays"
      },
      "lemma": "Monday",
      "part_of_speech": "POS_PROPN"
    }
  ],
  "sentences": [
    {
      "span": {
        "begin": 0,
        "end": 20,
        "text": "I don't like Mondays"
      }
    }
  ],
  "paragraphs": [
    {
      "span": {
        "begin": 0,
        "end": 20,
        "text": "I don't like Mondays"
      }
    }
  ]
}