批次部署詳細資料 (Watson Machine Learning)

您可以使用下列任何介面來建立批次部署:

資料來源

批次部署工作的輸入資料來源根據架構而不同。 輸入資料可以作為下列內容提供給批次工作:

使用來自 Cloud Object Storage 連線的資料

  1. 透過將連線新增至專案或空間,然後選取 Cloud Object Storage(基礎架構)作為連線類型,來建立與 IBM Cloud Object Storage 的連線。 提供秘密金鑰、存取金鑰和登入 URL。
  2. 使用您建立的 COS 連線,將輸入及輸出檔案新增至部署空間作為已連接的資料。

使用來自 Storage volume (NFS) 連線的資料

如需使用來自網路式檔案系統的資料的相關詳細資料,請參閱儲存磁區連線

為批次部署工作指定計算需求

批次部署的計算配置是指配置給工作的 CPU 及記憶體大小。 此資訊必須在下列其中一項內容的 hardware_spec API 參數中指定:

如果是執行 AutoAI 模型的批次部署,則必須在 hybrid_pipeline_hardware_specs 參數(而非 hardware_spec 參數)中指定計算配置。

計算配置必須是預先定義的硬體規格的參照。 您可以將硬體規格的 ID 或名稱與 hardware_spechybrid_pipeline_hardware_specs(適用於 AutoAI)搭配使用,按名稱或 ID 來指定硬體規格。 預先定義的硬體規格的相關清單及詳細資料可以透過 Watson Machine Learning Python 用戶端或 Watson Machine Learning REST API 來存取。

預先定義的硬體規格

有一些依機型提供的預先定義的硬體規格。

Watson Machine Learning 模型

大小 硬體定義
XS 1 個 CPU 和 4 GB RAM
S 2 個 CPU 和 8 GB RAM
M 4 個 CPU 和 16 GB RAM
ML 4 個 CPU 和 32 GB RAM
L 8 個 CPU 和 32 GB RAM
XL 8 個 CPU 和 64 GB RAM

Decision Optimization

大小 硬體定義
S 2 個 CPU 和 8 GB RAM
M 4 個 CPU 和 16 GB RAM
XL 16 個 CPU 和 64 GB RAM

具有結合資料的 AutoAI

附註:只有在部署使用結合資料集的 AutoAI 模型時,才適用這些硬體定義。 對於具有單一資料集的 AutoAI 模型,請使用 Watson Machine Learning 模型的硬體定義。

|大小|硬體定義| |—|—| |XS-Spark|1 顆 CPU 和 4 GB RAM、1 個主要節點 + 2 個工作者節點| |S-Spark|2 顆 CPU 和 8 GB RAM、1 個主要節點 + 2 個工作者節點| |M-Spark|4 顆 CPU 和 16 GB RAM、1 個主要節點 + 2 個工作者節點| |L-Spark|4 顆 CPU 和 32 GB RAM、1 個主要節點 + 2 個工作者節點| |XL-Spark|8 顆 CPU 和 32 GB RAM、1 個主要節點 + 2 個工作者節點|

批次部署工作的提交步驟(概觀)

  1. 建立批次類型的部署。
  2. 提交參照批次部署的部署工作。
  3. 透過 Watson Machine Learning Python 用戶端、REST API 或部署空間使用者介面,藉由查詢對應部署工作的詳細資料來輪詢部署工作的狀態。

佇列作業與並行工作執行

每一個部署可以執行的並行工作數量上限由部署服務在內部處理。 每個批次部署最多可以同時執行兩個工作。 要求進行特定批次部署並且已有兩個工作正在執行的任何部署工作,都將放入佇列以供後續執行。 完成任何執行中的工作之後,系統將會挑選佇列中的下一個工作來執行。 佇列大小沒有上限。

保留部署工作 meta 資料

與工作相關的 meta 資料將會持續保存,您可以存取尚未刪除的工作及其部署。

依架構列出的輸入詳細資料

請參閱模型類型,以詳細瞭解支援將哪些類型的資料作為批次工作的輸入。

Decision Optimization

類型:資料參照

資料來源

行內資料:

部署空間中的本端/受管理資產:

部署空間中具有來源(例如 Cloud Object Storage、Db2 或儲存磁區 (NFS))的已連接(遠端)資產

附註

檔案格式 部署工作的 environment_variables 參數不適用。

Spark

類型:行內(部署工作的 environment_variables 參數不適用)

SPSS

類型:行內及資料參照

資料來源:下列資產的資料參照類型必須是 data_asset

檔案格式:csv、xls、sas、sav

附註

支援的輸入及輸出來源組合

您必須為 SPSS Modeler 流程輸入、批次工作輸入及輸出指定相容的來源。 如果您指定不相容的資料來源類型組合,在嘗試執行批次工作時將會發生錯誤。

對於批次工作支援下列組合:

SPSS 模型串流輸入/輸出 批次部署工作輸入 批次部署工作輸出
檔案 本端/受管理或參照的資料資產(檔案) 遠端資料資產(檔案)或名稱
資料庫 遠端資料資產(資料庫) 遠端資料資產(資料庫)

如需有關 Watson Studio 如何連接至資料的詳細資料,請參閱存取資料

指定多個輸入

如果您要為沒有綱目的 SPSS 模型串流部署指定多個輸入,請為 input_data_references 中的每一個元素指定 ID。

如需詳細資料,請參閱對 SPSS 工作使用多個資料來源

在此範例中,當您建立工作時,請提供 ID 給三個輸入項目:“sample_db2_conn”、“sample_teradata_conn”和“sample_googlequery_conn”,並為每一個輸入選取所需的已連接資料。

{
"deployment": {
    "href": "/v4/deployments/<deploymentID>"
  },
  "scoring" : {
  	  "input_data_references": [{
               "id": "sample_db2_conn",              
               "name": "Db2 connection",
               "type": "data_asset",      
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_teradata_conn",          
               "name": "Teradata connection",
               "type": "data_asset",      
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_googlequery_conn",        
               "name": "Google bigquery connection",
               "type": "data_asset",      
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           }],
  	  "output_data_references": {
  	  	"id": "sample_db2_conn"
                 "type": "data_asset",
                 "connection": {},
                 "location": {
                    "href": "/v2/assets/<asset_id>?space_id=<space_id>"
                 },
          }
}

AutoAI

類型:行內及資料參照

資料來源:下列資產的資料參照類型必須是 data_asset

檔案格式:csv

附註

Scikit-Learn & XGBoost

類型:行內及資料參照

資料來源:下列資產的資料參照類型必須是 data_asset

檔案格式:csv、包含 .csv 檔的 ZIP

附註:部署工作的 environment_variables 參數不適用

Tensorflow

類型:行內及資料參照

資料來源:下列資產的資料參照類型必須是 data_asset

檔案格式:包含 JSON 檔的 ZIP

附註:部署工作的 environment_variables 參數不適用

Keras

類型:行內及資料參照

資料來源:下列資產的資料參照類型必須是 data_asset

檔案格式:包含 JSON 檔的 ZIP

附註:部署工作的 environment_variables 參數不適用

Pytorch

類型:行內及資料參照

資料來源:下列資產的資料參照類型必須是 data_asset

檔案格式:包含 JSON 檔的 ZIP

附註:部署工作的 environment_variables 參數不適用

Python 函數

您可以在 Watson Machine Learning 中以部署模型的相同方式部署 Python 函數。 您的工具和應用程式可以使用 Watson Machine Learning Python 用戶端或 REST API,以其傳送資料至已部署模型的相同方式將資料傳送至已部署函數。 部署函數讓您能夠隱藏詳細資料(例如認證)、在將資料傳遞至模型之前進行預先處理、執行錯誤處理,以及併入多個模型呼叫,所有上述功能都在已部署函數內而非應用程式中執行。

類型:行內

附註

Python Script

類型:資料參照

資料來源:下列資產的資料參照類型必須是 data_asset

檔案格式:任意

附註

R Script

類型:資料參照

資料來源:下列資產的資料參照類型必須是 data_asset

檔案格式:任意

附註