品詞タグ・セット

分析される文書の言語に応じて、ICA Studio では品詞タグ付け用の何種類かのタグ・セットが使用されます。 UIMA パイプラインを使って文書が分析されるとき、これらの品詞タグは uima.tt.TokenAnnotation タイプのプロパティー値として表示されます。

以下の表は、英語および他の言語 (ドイツ語、フランス語、アラビア語など) で使用される品詞タグのリストです。 韓国語、トルコ語、中国語、日本語の文書用に使用される品詞タグについては、ICA Studio のコンテキスト・ヘルプ情報を参照してください。

英語タグ・セット

以下の品詞タグは英語の文書用に使用されます。

表 1. 英語の文書用に使われる品詞タグのリスト
品詞タグ 説明
UNKNOWN 不明な語
DT 限定詞
QT 数量詞
CD 基数
NN 名詞 (単数形)
NNS 名詞 (複数形)
NNP 固有名詞 (単数形)
NNPS 固有名詞 (複数形)
EX 存在を表す there (例文: There was a party.)
PRP 人称代名詞 (PP)
PRP$ 所有代名詞 (PP$)
POS 所有格の終わり
RBS 副詞 (最上級)
RBR 副詞 (比較級)
RB 副詞
JJS 形容詞 (最上級)
JJR 形容詞 (比較級)
JJ 形容詞
MD
VB 動詞 (原形)
VBP 動詞 (三人称単数以外の現在形)
VBZ 動詞 (三人称単数の現在形)
VBD 動詞 (過去形)
VBN 動詞 (過去分詞)
VBG 動詞 (動名詞または現在分詞)
WDT Wh 限定詞 (例えば Which book do you like better? という文の中の which)
WP Wh 代名詞 (例えば関係代名詞として使用される場合の which および that)
WP$ 所有 Wh 代名詞 (例えば whose)
WRB Wh 副詞 (例えば I like it when you make dinner for me. という文の中の when )
TO 前置詞 to
IN 前置詞または従属接続詞
CC 等位接続詞
UH 感嘆詞
RP 不変化詞
SYM 記号
$ 通貨記号
'' 引用符 (二重または単一)
( 左側の括弧、大括弧、不等号括弧、または中括弧
) 右側の括弧、大括弧、不等号括弧、または中括弧
, コンマ
. 文の終わりの句読点 (. ! ?)
: 文の途中の句読点 (: ; ... -- -)

簡略化されたタグ・セット

以下の品詞タグは英語以外の言語の文書用に使用されます。

表 2. 英語以外の文書用に使われる品詞タグのリスト
品詞タグ 説明
UKW 不明な語
CC 等位接続詞
CD 基数
DT 限定詞
IN 前置詞または従属接続詞
JJ 形容詞
MD
NN 名詞
NNP 固有名詞
PRP 代名詞
QT 数量詞
RB 副詞
SYM 記号 (すべての種類の句読点を含む)
UH 感嘆詞
VB 動詞
WH Wh 語 (例えば what に相当する語)