欄位標籤的文件設定

結構化文字格式

如果您因為具有結構化資料,或是想要強制執行有關如何處理文字的規則,而要跳過全部或部分的擷取程序, 請使用結構化文字文件類型選項, 並在「文件設定」對話框的結構化文字格式區段中宣告包含該文字的欄位或標籤。系統只會從宣告的欄位或標籤(以及子標籤)內所含的文字衍生擷取的詞彙。將忽略任何未宣告的欄位或標籤。

在某些環境定義中,並不需要語言處理程序,而且明確宣告可以取代語言擷取引擎。在其中關鍵字欄位是以分號 (;) 或逗點 (,) 之類的分隔字元區隔的參考書目檔案中,擷取兩個分隔字元之間的字串已足夠。基於此原因,您可以暫停完整擷取程序,改為定義特殊處理規則來宣告詞彙分隔字元、將類型指派給擷取的文字,或是強制執行擷取頻率計數下限。

宣告結構化文字元素時,請使用下列規則:

  • 每一行只能宣告一個欄位、標籤或元素。它們不必存在於資料中。
  • 宣告區分大小寫。
  • 如果宣告具有屬性的標籤(如 <title id="1234">),並且想要包含所有變式或(在本案例中)所有 ID,請新增沒有屬性或結尾角括弧的標籤 (>),如 <title
  • 在欄位或標籤名稱後面加入冒號來表示這是結構化文字。請緊接在欄位或標籤後面,但是在任何分隔字元、類型或頻率值前面加入這個冒號,例如 author: <place>:
  • 如果要指出欄位或標籤中包含多個詞彙,並指出要使用分隔字元來指定個別詞彙,請在冒號後面宣告分隔字元,例如 author:, <section>:;
  • 如果要將類型指派給在標籤中發現的內容,請在冒號和分隔字元後面宣告類型名稱,例如 author:,Person <place>:;Location。 使用出現在「資源編輯器」中的名稱來宣告類型。
  • 如果要為欄位或標籤定義頻率計數下限,請在行尾處宣告一個數字,如 author:,Person1 <place>:;Location5。 其中 n 是您定義的頻率計數,在欄位中發現的詞彙在要擷取的整組文件或記錄中,必須至少要出現 n 次。這也需要您定義分隔字元。
  • 如果您有標籤包含冒號,則在冒號前面必須有一個反斜線字元,以便宣告不會被忽略。 比方說,如果您有一個稱為 <topic:source> 的欄位,請將它輸入為 <topic\:source>

為說明語法,讓我們假設您具有下列重複出現的書目欄位:


		author:Morel, Kawashima
		abstract:This article describes how fields are declared.
		publication:Text Mining Documentation
		datepub:March 2010

比方說,如果我們要擷取程序聚焦在作者和摘要上,而忽略其餘內容,則我們只會宣告下列欄位:

		author:,Person1
		abstract:

在本例中,author:,Person1 欄位宣告指出在欄位內容上已暫停語言處理程序。反之,它指出作者欄位包含多個名稱(以逗點分隔字元與下一個名稱區隔),且這些名稱應指派給「人員」類型,並指出如果該名稱在整組文件或記錄中至少出現一次,則應該擷取它。由於列出的欄位 abstract: 沒有任何其他宣告,因此在擷取期間將會掃描該欄位,並會套用標準語言處理程序和類型設定。

XML 文字格式

如果您要將擷取程序僅限於特定 XML 標籤內的文字,請使用 XML 文字文件類型選項, 並在「文件設定」對話框的 XML 文字格式區段中宣告包含該文字的標籤。系統只會從這些標籤或其子標籤內所含的文字衍生擷取的詞彙。

重要事項! 如果您要跳過擷取程序,並對詞彙分隔字元強制施行規則、將類型指派給擷取的文字,或是對擷取的詞彙強制執行頻率計數,請使用接下來說明的結構化文字選項。

宣告 XML 文字格式的標籤時,請使用下列規則:

  • 每一行只能宣告一個 XML 標籤。
  • 標籤元素區分大小寫。
  • 如果標籤具有屬性(如 <title id="1234">),並且想要包含所有變式或(在本案例中)所有 ID,請新增沒有屬性或結尾角括弧的標籤 (>),如 <title

為說明語法,讓我們假設您具有下列 XML 文件:

		<section>Rules of the Road
		     <title id="01234">Traffic Signals</title>
		     <p>Road signs are helpful.</p>
		</section>
		<p>Learning the rules is important.</p>

針對這個範例,我們將宣告下列標籤:

		<section>
		<title

在本例中,由於您已宣告標籤 <section>,因此在擷取程序期間會掃描此標籤及其巢套標籤中的文字 Traffic SignalsRoad signs are helpful。 不過,會忽略 Learning the rules is important,因為未明確宣告標籤 <p>,也未明確宣告在宣告的標籤內巢套的標籤。