创建环境定义 (Watson Studio)
您不想使用 Watson Studio 所提供的缺省环境定义时,可以创建定制环境定义。
要创建环境定义,您必须在项目中具有管理员或编辑者角色。
在 Watson Studio 中,可以为下列各项创建环境定义:
- 在 Notebook 编辑器中创建的 Notebook
- 在 JupyterLab 中创建的 Notebook
- 在 RStudio 中创建的 Notebook
- 在模型构建器中创建的模型
- 流程编辑器中的模型流程
- Data Refinery 流程
- 运行操作资产(例如,项目中的 Data Refinery 流程、SPSS Modeler 流程或 Notebook)的作业
要创建环境定义,请完成下列步骤:
- 从项目中的环境选项卡中,单击新建环境定义。
- 输入名称和描述。
- 选择类型。该类型指定运行时引擎类型。这可以是:
- 缺省:对于 Python 或 R、RStudio 或 JupyterLab 运行时,请选择此值。
- Spark:对于使用 Python、R 或 Scala 运行时的 Spark,请选择此值。
- GPU:选择此值可获取更多计算能力,以提高模型训练性能。
- 远程系统:选择此值可实现下列目标:
- 运行 Data Refinery 作业,以优化存储在 HDFS 中、存储在 Hive 仓库内的表中或者存储在 Hadoop 集群上 Impala 的表中的数据
- 在 Hadoop 或 Spectrum Conductor(仅限 JEG)之类的远程系统上运行作业或 Jupyter Enterprise Gateway (JEG) 会话。
-
对于缺省或 GPU,请选择硬件配置和软件版本。
-
指定要保留的 CPU、GPU 和 RAM 大小。
该环境将在提供有所需资源的计算节点上启动,而且,只要该环境在运行中,这些资源就会保留给它使用。您应该注意根据计划的工作负载指定足够的资源,尤其是指定足够的内存。运行 Notebook 时,这一点十分重要。缺省值为 2 GB RAM。
虽然指定资源量可以提供更可预测的体验,但是预测合理的限制可能很困难,这可能会导致所有资源都由活动环境保留,但未获积极使用的情况。
-
指定缺省软件版本。
注:如果要创建 scikit-learn、XGBoost、PyTorch、TensorFlow、Keras 或 Caffe 模型,或者要编码 Python 函数或脚本,请选择
Default Python 3.7。
-
- 对于 Spark,请选择驱动程序和执行程序大小、执行程序数目以及软件版本。
- 驱动程序硬件配置。驱动程序会创建 SparkContext,后者会在 Spark 集群中分布作业的执行。请选择:
- 1 个 vCPU 和 4 GB RAM
- 2 个 vCPU 和 8 GB RAM
- 执行程序硬件配置。执行程序是一个进程,它负责运行给定 Spark 作业中的任务。请选择:
- 1 个 vCPU 和 4 GB RAM
- 2 个 vCPU 和 8 GB RAM
- 执行程序数目。请选择 1 到 10 个执行程序。
- Spark 版本。请选择 Spark 3.0 和 Spark 2.4(Spark 2.4 用于 Data Refinery 流程作业)
- 软件版本
- 驱动程序硬件配置。驱动程序会创建 SparkContext,后者会在 Spark 集群中分布作业的执行。请选择:
- 对于远程系统,请选择 Hadoop 配置或系统配置。
新的环境定义会在项目环境页面上的“环境定义”下列出。在该页面中,您可以更新环境定义,以及查看哪些运行时处于活动状态。您还可以从这里停止运行时。
限制
Notebook 环境(Anaconda Python 或 R 发行版)存在以下限制:
- 无法对 Watson Studio 中随附的缺省 Python 和 R 环境定义添加软件定制。您只能对自己创建的环境定义添加定制。
- 要创建 Python with GPU 环境,必须安装 Jupyter Notebooks with Python 3.7 for GPU 服务。
- 如果您创建自己的环境,并且要使用 conda 来定制该环境的软件配置,那么必须至少有 2 GB RAM。
- conda 会先安装 pip 软件包。
- 无法通过直接从 CRAN 或 GitHub 安装 R 软件包来定制 R 环境。您只能检查所需的 CRAN 软件包是否可从 conda 通道获得,如果可以获得该软件包,请在定制列表中,以
r-<package-name>格式添加该软件包名。 - 在 Watson Studio 环境中启动 Notebook 之后,就无法从该 Notebook 中创建其他 conda 环境并加以使用。Watson Studio 环境的行为有别于 conda 环境管理器。
Spark 环境有下列限制:
- 无法定制 Spark 环境定义的软件配置。
GPU 环境有下列限制:
- 在任意时刻,处于活动状态的 GPU 运行时数量不得超过集群中的 GPU 单元数。
提升环境定义
如果您已创建环境定义并将其与提升到部署空间的资产相关联,那么还可将该环境定义提升到同一空间。将环境定义提升到同一空间后,就可以在项目中使用的环境中运行该资产。
您只能提升自己创建的环境定义。
要提升环境定义,请完成下列步骤:
- 从项目中的“环境”页面选中该环境定义,然后单击操作 > 提升。
- 选择资产所提升到的空间作为目标部署空间,并选择性提供描述。