Watson Natural Language Processing 程式庫

Watson Natural Language Processing 程式庫提供自然語言處理功能,可針對各種文字處理作業 (例如觀感分析、關鍵字擷取及分類) 進行語法分析及現成的預先訓練模型。 Watson Natural Language Processing 程式庫僅適用於 Python 。

使用 Watson Natural Language Processing ,您可以將非結構化資料轉換為結構化資料,讓資料更容易瞭解並可轉移,特別是如果您使用非結構化與結構化資料的混合。 這類資料的範例有客服中心記錄、客戶抱怨、社交媒體貼文或問題報告。 非結構化資料通常是包含具有結構化資料之直欄的較大資料記錄的一部分。 從非結構化資料擷取意義和結構,並將此資訊與結構化資料直欄中的資料相結合,可讓您更深入瞭解輸入資料,並可協助您做出更好的決策。

Watson Natural Language Processing 提供 20 種以上語言的預先訓練模型。 他們由專門的專家團隊負責策劃,並評估每種特定語言的品質。 這些預先訓練的模型可以在正式作業環境中使用,而無需擔心授權或智慧財產權違規。

雖然您可以建立自己的模型,但開始使用 Watson Natural Language Processing 最簡單的方法是對非結構化文字執行預先訓練模型,以執行語言處理作業。

以下是 Watson Natural Language Processing 預先訓練模型中可用的語言處理作業範例:

  • 語言偵測: 偵測輸入文字的語言
  • 語法: 記號化、詞形還原化、詞性標記及相依關係剖析
  • 實體擷取: 尋找實體的提及項目 (例如人員、組織或日期)
  • 名詞詞組擷取: 從輸入文字擷取名詞詞組
  • 文字分類: 分析文字,然後根據其內容指派一組預先定義的標籤或種類
  • 觀感分類: 輸入文件是正面、負面或中立?
  • 音調分類: 分類輸入文件中的音調 (例如興奮、沮喪或悲傷)
  • 情緒分類: 分類輸入文件的情緒 (例如憤怒或厭惡)
  • 關鍵字擷取: 擷取輸入文字中相關的名詞詞組
  • 概念: 在輸入文字中尋找 DBPedia 中的概念
  • 關係: 偵測兩個實體之間的關係
  • 階層式種類: 將階層式分類架構內的個別節點指派給輸入文件
  • 內嵌: 將個別單字或較大的文字 Snippet 對映至向量空間

Watson Natural Language Processing 會透過區塊和工作流程封裝自然語言功能。 區塊及工作流程支援載入、執行、訓練及儲存模型的功能。

如需相關資訊,請參閱 使用預先訓練的模型

以下是一些範例,說明如何使用 Watson Natural Language Processing 程式庫:

對文字 Snippet 執行語法分析:

import watson_nlp

# Load the syntax model for English
syntax_model = watson_nlp.load('syntax_izumo_en_stock')

# Run the syntax model and print the result
syntax_prediction = syntax_model.run('Welcome to IBM!')
print(syntax_prediction)

從文字 Snippet 擷取實體:

import watson_nlp
entities_workflow = watson_nlp.load('entity-mentions_transformer-workflow_multilingual_slate.153m.distilled')
entities = entities_workflow.run('IBM\'s CEO Arvind Krishna is based in the US', language_code="en")
print(entities.get_mention_pairs())

如需如何使用 Watson Natural Language Processing 程式庫的範例,請參閱 Watson Natural Language Processing 程式庫使用範例

在 Notebook 中使用 Watson Natural Language Processing

您可以在這裡列出的任何環境中執行使用 Watson Natural Language Processing 程式庫的 Python Notebook。 GPU 環境範本包括 Watson Natural Language Processing 程式庫。

DO + NLP: 指出環境範本同時包含 CPLEX 和 DOcplex 程式庫,以建模並解決決策最佳化問題,以及 Watson Natural Language Processing 程式庫。

~ : 指出環境範本需要 Watson Studio Professional 方案。 請參閱供應項目方案

包含 Watson Natural Language Processing 程式庫的環境範本
名稱 硬體配置 每小時 CUH 率
Python 3.10 XS 上的 NLP 執行時期 23.1 2vCPU 和 8 GB RAM 6
Python 3.10 XS 上的 DO + NLP 執行時期 22.2 2 個 vCPU 及 8 GB RAM 6
GPU V100 Runtime 23.1 on Python 3.10 ~ 40 vCPU + 172 GB + 1 NVIDIA ® V100 (1 GPU) 68
GPU 2xV100 執行時期 23.1 on Python 3.10 ~ 80 vCPU + 344 GB + 2 NVIDIA ® V100 (2 GPU) 136
GPU V100 Runtime 22.2 on Python 3.10 ~ 40 vCPU + 172 GB + 1 NVIDIA ® V100 (1 GPU) 68
GPU 2xV100 執行時期 22.2 on Python 3.10 ~ 80 vCPU + 344 GB + 2 NVIDIA ® V100 (2 GPU) 136

通常這些環境足以執行使用預先建置模型的 Notebook。 如果您需要更大的環境 (例如訓練您自己的模型) ,則可以建立包含 Watson Natural Language Processing 程式庫的自訂範本。 請參閱 建立您自己的環境範本

  • 選取引擎類型 Default(您需要的硬體配置大小) ,並選擇 NLP Runtime 23.1 on Python 3.10DO + NLP Runtime 22.2 on Python 3.10 作為軟體版本,以建立不含 GPU 的自訂範本。
  • 透過選取引擎類型 GPU、您需要的硬體配置大小,並選擇 GPU Runtime 23.1 on Python 3.10GPU Runtime 22.2 on Python 3.10 作為軟體版本,建立具有 GPU 的自訂範本。

進一步瞭解

上層主題: 記事本和 Script