專案中 Notebook 編輯器的計算資源選項

當您在專案中的 Notebook 編輯器中執行 Notebook 時,您可以選擇環境範本,以定義執行時期環境的計算資源。 環境範本指定硬體配置的類型、大小及功能,以及軟體配置。 對於 Notebook ,環境範本包括 Python 及 R 的受支援語言。

環境類型

您可以使用這些類型的環境來執行 Notebook:

Notebook 的大部分環境類型都具有預設環境範本,因此您可以快速開始使用。 否則,您可以 建立自訂環境範本

Notebook 的環境類型
環境類型 預設樣板 自訂樣板
Anaconda CPU
Spark 叢集
GPU

執行時期版本

Notebook 的預設環境會新增為執行時期版本的關聯,並以 Runtime 作為字首,後面接著版本年份和版本版本。

執行時期版本指定重要資料科學程式庫及語言版本的清單,例如 Python 3.10。 執行時期版本的所有環境都根據版本中定義的程式庫版本來建置,因此確保在所有資料科學應用程式之間一致使用資料科學程式庫。

Runtime 22.2Runtime 23.1 版本適用於 Python 3.10 及 R 4.2。

支援執行時期版本時, IBM 將更新程式庫版本以滿足安全需求。 請注意,這些更新項目不會變更程式庫的 <Major>.<Minor> 版本,只會變更 <Patch> 版本。 這可確保 Notebook 資產將繼續執行。

包含在執行時期中的程式庫套件

如需 Watson Studio 執行時期所包含熱門資料科學程式庫套件的特定版本,請參閱下列表格:

表 3. Python 各種執行時期版本中的套件及其版本
檔案庫 Python 3.10 上的執行時期 22.2 Python 3.10 上的執行時期 23.1
Keras 2.9 2.12
拉萊 0.7 0.7
LightGBM 3.3 3.3
NumPy 1.23 1.23
ONNX 1.12 1.13
ONNX 執行時期 1.12 1.13
OpenCV 4.6 4.7
pandas 1.4 1.5
PyArrow 8.0 11.0
PyTorch 1.12 2.0
scikit-learn 1.1 1.1
SciPy 1.8 1.10
SnapML 1.8 1.13
TensorFlow 2.9 2.12
XGBoost 1.6 1.6
表 4. 適用於 R 的各種執行時期版本中的套件及其版本
檔案庫 R 4.2 上的執行時期 22.2 R 4.2 上的執行時期 23.1
箭頭 8.0 11.0
汽車 3.0 3.0
脫字符號 (^) 6.0 6.0
卡圖奧爾斯 1.18 1.18
預測 8.16 8.16
ggplot2 3.3 3.3
glmnet 4.1 4.1
赫米什克 4.7 4.7
Keras 2.9 2.12
lme4 1.1 1.1
mvtnorm 1.1 1.1
潘多克 2.12 2.12
精神病 2.2 2.2
python 3.10 3.10
隨機森林 4.7 4.7
網狀 1.25 1.25
三明治 3.0 3.0
scikit-learn 1.1 1.1
空間 7.3 7.3
TensorFlow 2.9 2.12
蒂迪爾 1.2 1.2
XGBoost 1.6 1.6

除了表格中列出的程式庫之外,執行時期還包括許多其他有用的程式庫。 若要查看完整清單,請選取專案中的 管理 標籤,然後按一下 範本,選取 環境 標籤,然後按一下其中一個列出的環境。

CPU 環境範本

您可以為 Notebook 選取下列任何預設 CPU 環境範本。 預設環境範本列在專案 管理 標籤上「 環境 」頁面上的 範本 下。

DO 指出環境範本包括 CPLEX 及 DOcplex 程式庫,以建模及解決決策最佳化問題,這些問題超出其他預設 Python 環境中程式庫 Community Edition 所支援的複雜性。 請參閱 Decision Optimization Notebook

NLP 指出環境範本包括 Watson Natural Language Processing 程式庫,以及您可以對非結構化資料執行之語言處理作業的預先訓練模型。 請參閱 使用 Watson Natural Language Processing 程式庫。 此預設環境應該足夠大,以執行預先訓練的模型。

Notebook 的預設 CPU 環境範本
名稱 硬體配置 每小時 CUH 率
Python 3.10 XXS 上的執行時期 22.2 1 個 vCPU 及 4 GB RAM 0.5
Python 3.10 XS 上的執行時期 22.2 2 個 vCPU 及 8 GB RAM 1
Python 3.10 S 上的執行時期 22.2 4 個 vCPU 及 16 GB RAM 2
Python 3.10 XXS 上的執行時期 23.1 1 個 vCPU 及 4 GB RAM 0.5
Python 3.10 XS 上的執行時期 23.1 2 個 vCPU 及 8 GB RAM 1
Python 3.10 S 上的執行時期 23.1 4 個 vCPU 及 16 GB RAM 2
Python 3.10 XS 上的 DO + NLP 執行時期 22.2 2 個 vCPU 及 8 GB RAM 6
Python 3.10 XS 上的 NLP 執行時期 23.1 2 個 vCPU 及 8 GB RAM 6
R 4.2 S 上的執行時期 22.2 4 個 vCPU 及 16 GB RAM 2
R 4.2 S 上的執行時期 23.1 4 個 vCPU 及 16 GB RAM 2

當您不再需要作用中的 CPU 執行時期時,您應該全部停止,以防止耗用額外的容量單位小時數時 (CUH)。 請參閱 CPU 閒置逾時

Notebook 及 CPU 環境

當您在 CPU 執行時期環境中以編輯模式開啟 Notebook 時,正好一個互動式階段作業會連接至適用於您所選取之 Notebook 語言和環境執行時期的 Jupyter 核心。 執行時期是根據單一使用者而非 Notebook 來啟動。 這表示如果您在相同專案中開啟具有相同環境範本的第二個 Notebook ,則會在相同執行時期中啟動第二個核心。 執行時期資源由您在執行時期中啟動的 Jupyter 核心共用。 如果 CPU 具有 GPU ,則也會共用執行時期資源。

如果您想要避免共用執行時期,但想要針對專案中的多個 Notebook 使用相同的環境範本,則應該建立具有相同規格的自訂環境範本,並將每一個 Notebook 與其自己的範本相關聯。

必要的話,您可重新啟動或重新連線至核心。 當您重新啟動核心時,核心會停止,然後再次在相同的階段作業中啟動,但所有執行結果都會遺失。 在遺失連線後重新連線至核心時,該 Notebook 會連線至同一個核心階段作業,並且已儲存的所有先前執行結果皆可供使用。

Spark 環境範本

您可以為 Notebook 選取下列任何預設 Spark 環境範本。 預設環境範本列在專案 管理 標籤上「 環境 」頁面上的 範本 下。

Notebook 的預設 Spark 環境範本
名稱 硬體配置 每小時 CUH 率
Default Spark 3.3 & R 4.2 2 個執行程式,每個: 1 個 vCPU 和 4 GB RAM;
驅動程式: 1 個 vCPU 和 4 GB RAM
1
Default Spark 3.4 & R 4.2 2 個執行程式,每個: 1 個 vCPU 和 4 GB RAM;
驅動程式: 1 個 vCPU 和 4 GB RAM
1

當您不再需要作用中的 Spark 執行時期時,您應該全部停止,以防止耗用額外的容量單位小時數時 (CUH)。 請參閱 Spark 閒置逾時

大型 Spark 環境

如果您具有 Watson Studio Professional 方案,則可以為較大的 Spark 環境建立自訂環境範本。

專業方案使用者最多可以擁有 35 個執行程式,並且可以從下列選項中選擇驅動程式和執行程式:

Spark 環境的硬體配置
硬體配置
1 個 vCPU 及 4 GB RAM
1 vCPU 和 8 GB RAM
1 vCPU 和 12 GB RAM

對於新增的每 vCPU ,每小時 CUH 比率會增加 0.5 。 例如, 1x Driver: 3vCPU with 12GB of RAM4x Executors: 2vCPU with 8GB of RAM 會達到 (3 + (4 * 2)) = 11 vCPUs5.5 CUH

Notebook 和 Spark 環境

您可以為多個 Notebook 選取相同的 Spark 環境範本。 與該環境相關聯的每個 Notebook 都有其專用的 Spark 叢集,且沒有共用資源。

當您啟動 Spark 環境時,Jupyter Enterprise Gateway、Spark Master 和 Spark 工作者常駐程式需要額外的資源。 這些額外資源為 1 個 vCPU 和 2 GB RAM(針對每一個驅動程式),以及 1 GB RAM(針對每一個執行程式)。 在選取 Spark 環境的硬體大小時,您需要將這些額外資源納入考量。 例如: 如果您建立 Notebook 並選取 Default Spark 3.3 & Python 3.10,則 Spark 叢集會耗用 3 vCPU 和 12 GB RAM ,但由於額外資源需要 1 vCPU 和 4 GB RAM ,因此 Notebook 剩餘的資源為 2 vCPU 和 8 GB RAM。

Spark 叢集上的檔案系統

如果要在執行程式和 Spark 叢集的驅動程式或核心中共用檔案,您可以使用位於 /home/spark/shared 中的共用檔案系統。

如果要使用自己的自訂程式庫,您可以在 /home/spark/shared/user-libs/ 下儲存它們。 /home/spark/shared/user-libs/ 下有四個子目錄預先配置為可供 Python 及 R 或 Java 執行時期使用。

下表列出預先配置的子目錄,您可以在其中新增自訂程式庫。

表 5. 自訂程式庫的預先配置子目錄
目錄 程式庫類型
/home/spark/shared/user-libs/python3/ Python 3 程式庫
/home/spark/shared/user-libs/R/ R 套件
/home/spark/shared/user-libs/spark2/ Java JAR 檔

若要在 Spark 驅動程式和執行程式之間共用程式庫,請執行下列動作:

  1. 將自訂程式庫或 JAR 檔下載至適當的預先配置目錄。
  2. 按一下 核心> 重新啟動核心,從筆記本功能表重新啟動核心。 這會在 Spark 中載入自訂程式庫或 JAR 檔。

請注意,這些程式庫都不會持續保存。 如果您停止環境執行時期並稍後再次重新啟動,則需要重新載入程式庫。

GPU 環境範本

您可以為 Notebook 選取下列 GPU 環境範本。 環境範本列在專案 管理 標籤上 環境 頁面上的 範本 下。

GPU 環境範本名稱指出加速器電源。 GPU 環境範本包括 Watson Natural Language Processing 程式庫,其中包含預先訓練的模型,可讓您在非結構化資料上執行語言處理作業。 請參閱 使用 Watson Natural Language Processing 程式庫

~ 指出環境範本需要 Watson Studio Professional 方案。 請參閱供應項目方案

Notebook 的預設 GPU 環境範本
名稱 硬體配置 每小時 CUH 率
GPU V100 Runtime 22.2 on Python 3.10 ~ 40 vCPU + 172 GB RAM + 1 NVIDIA TESLA V100 (1 GPU) 68
GPU V100 Runtime 23.1 on Python 3.10 ~ 40 vCPU + 172 GB RAM + 1 NVIDIA TESLA V100 (1 GPU) 68
GPU 2xV100 Runtime 22.2 on Python 3.10 ~ 80 vCPU 和 344 GB RAM + 2 NVIDIA TESLA V100 (2 GPU) 136
GPU 2xV100 執行時期 23.1 on Python 3.10 ~ 80 vCPU 和 344 GB RAM + 2 NVIDIA TESLA V100 (2 GPU) 136

當您不再需要作用中的 GPU 執行時期時,您應該全部停止,以防止耗用額外的容量單位小時數時 (CUH)。 請參閱 GPU 閒置逾時

Notebook 及 GPU 環境

Notebook 的 GPU 環境僅適用於達拉斯 IBM Cloud 服務區域。

您可以針對專案中的多個 Notebook 選取相同的 Python 及 GPU 環境範本。 在此情況下,每一個 Notebook 核心會在相同的執行時期實例中執行,且資源是共用的。 若要避免共用執行時期資源,請建立具有相同規格的多個自訂環境範本,並將每一個 Notebook 與其自己的範本相關聯。

採用 Watson Machine Learning 的評分模型的預設硬體規格

在 Notebook 中呼叫 Watson Machine Learning API 時,您會耗用來自 Watson Machine Learning 服務的計算資源,以及 Notebook 核心的計算資源。

當您連接至 Watson Machine Learning 並建立部署時,您可以選取下列任何硬體規格。

在 Notebook 中呼叫「 Watson 機器學習」服務時可用的硬體規格
容量大小 硬體配置 每小時 CUH 率
特別小 1x4 = 1 個 vCPU 和 4 GB RAM 0.5
小型 2x8 = 2 個 vCPU 和 8 GB RAM 1
4x16 = 4 個 vCPU 和 16 GB RAM 2
大型 8x32 = 8 個 vCPU 和 32 GB RAM 4

Notebook 環境中的資料檔

如果您使用的是大型資料集,則應該將資料集儲存在與專案相關聯的 IBM Cloud Object Storage 的較小區塊中,並在 Notebook 中處理資料片段。 或者,您應該在 Spark 環境中執行 Notebook。

請注意,每一個執行時期的檔案系統皆為非持續性,無法跨環境共用。 若要將檔案持續保存在 Watson Studio 中,則應該使用 IBM Cloud Object Storage。 在專案中的 Notebook 中使用 IBM Cloud Object Storage 最簡單的方法是利用 project-lib 套件 (適用於 Python ) 或 project-lib 套件 (適用於 R)。

計算用量(依服務)

在執行預設或自訂環境時, Notebook 執行時期會使用 Watson Studio中作為 CUH 的計算資源。 您可以在專案 管理 標籤上的 資源使用 頁面上,監視專案中的 Watson Studio CUH 使用情形。

當 Notebook 呼叫 Watson Machine Learning 以對模型進行評分時,Notebooks 還可以耗用來自 Watson Machine Learning 服務的 CUH。 您可以在專案 管理 標籤上的 資源用量 頁面上監視 Watson Machine Learning 服務的每月 CUH 用量總計。

在 Notebook 中追蹤 Watson Machine Learning 的 CUH

若要計算 Notebook 耗用的容量單位小時數,請在 Notebook 中執行下列程式碼:

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

例如:

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

傳回 5.49 CUH

如需詳細資料,請參閱 IBM Watson Machine Learning API 文件的「服務實例」小節。

執行時期範圍

環境執行時期一律以環境範本及專案內的使用者為範圍。 如果專案中的不同使用者使用相同的環境,則每一個使用者都將取得個別執行時期。

如果您選取一個版本的 Notebook 作為排定的工作來執行,則每個排定的工作將一律在專用執行時期中啟動。 工作完成時執行時期會停止。

變更 Notebook 的環境

您可以基於不同的原因來切換環境,例如,您可以:

  • 選取具有更強大的處理能力或更多 RAM 的環境
  • 從使用不具 Spark 的環境變更為 Spark 環境

解除鎖定 Notebook 之後,您只能變更 Notebook 的環境。 您可以變更環境:

  • 從以編輯模式開啟的 Notebook 中:

    1. 儲存 Notebook 變更。
    2. 按一下 Notebook 工具列中的「Notebook 資訊」圖示 (記事本資訊圖示),然後按一下環境
    3. 從清單中選取具有計算能力和記憶體容量的另一個範本。
    4. 選取變更環境。 這會停止作用中執行時期,並啟動新選取的環境。
  • 從專案的資產頁面中:

    1. 在 Notebook 區段中選取 Notebook ,按一下 動作> 變更環境 ,然後選取另一個環境。 必須先停止核心,然後才能變更環境。 下次開啟該 Notebook 進行編輯時,這個新的執行時期環境即會實例化。
  • 在 Notebook 工作中,透過編輯工作範本。 請參閱編輯工作設定

後續的步驟

進一步瞭解

上層主題: 工具的計算資源