在RStudio中使用默认Git集成Watson Studio

在默认集成 Git 的项目中创建 R 脚本和 R Shiny 应用程序。

R Shiny 是一个 R 包,便于直接从 R 中开发交互式 Web 应用程序。 您可以在RStudio 中创建、开发和完善 Shiny 应用程序,无论是创建独特的数据可视化仪表板,还是将应用程序发布到不同的地方,例如部署空间。

创建 R 脚本和 Shiny 应用程序

创建项目时,项目中引用的 Git 存储库最初会克隆到项目存储器中。 您可以在RStudioGUI 右下方的文件浏览器中查看Git仓库中名为 "userfs文件夹下文件的当前版本。 您必须在该文件夹或任何子文件夹中完成对 R 文件的所有修改,才能与Git 同步。

重要说明:

克隆是从项目操作栏上Git图标Git图标旁边的Git仓库分支中提取的。

如果文件夹或子文件夹包含 RShiny 应用程序文件 (即名称为 app.Rui.Rserver.R的文件) ,那么该文件夹中的所有文件都被视为属于 Shiny 应用程序 (包括 .R 文件)。 否则,所有 .R 文件都被视为 R 脚本资产。

  1. 可选: 如果要与其他人一起使用同一文件,请将合作者添加到项目中。 请参阅 协作

  2. 可选: 从全局位置 /cc-home/_global_/R 或持久存储卷中的外部网络预安装为 Shiny 应用程序提供的任何 R 库,以避免每次部署 Shiny 应用程序时都安装这些库。 确保在部署 Shiny 应用程序时已连接到存储卷。

  3. 要开始处理 R 脚本,请执行以下操作:

    1. 选择 新建文件> R 脚本 或从本地机器上载 R 文件。
    2. 保存文件更改。 请勿将文件保存在 userfs/assets下。 assets 目录保留用于与项目资产相关的文件。
    3. 在将脚本提交到 Git 代码库之前,可以通过创建作业来测试脚本。 您可以从资产页面选择查看本地分支 ,然后按下新建代码任务按钮,创建针对这些脚本运行的任务。
  4. 或者开始使用 Shiny 应用程序:

    1. 单击 新建文件 > Shiny Web 应用程序 ...。 此时将弹出一个新的 Shiny 应用程序创建窗口。
    2. 输入 Shiny 应用程序的名称,并将 userfs 保留为 在目录中创建 设置。 要启用与 Git 存储库的同步,必须在此目录或其任何子目录中工作。 请勿在 /assets 目录中工作。 此目录保留用于与项目资产相关的文件。 app.Rui.R/server.R 都包含构建应用程序和提供可测试运行的样本应用程序所需的指示信息。
    3. 如果应用程序很简单并且可以包含在一个文件中,那么可以选择创建单个文件应用程序 (app.R) ,以实现简单性。
    4. 或者,如果应用程序更复杂并且需要单独编辑其不同构面,那么可以选择创建使用多个文件 (ui.R/server.R) 的应用程序。
    5. 完成配置后,单击 创建
    6. 您可以通过单击 运行应用程序来测试应用程序的运行。 单击 运行应用程序时,将在屏幕上显示包含应用程序的弹出窗口。
  5. 您可以在脚本或应用程序中使用来自数据集的数据。 受支持的数据集格式包括文本, CSV , SPSS, SAS 和 Stata。 您可以使用已导入到项目中的数据资产,方法是单击 环境 选项卡下的 导入数据集 ,或者单击 文件 并浏览 userfs/assets/data-asset下的文件,或者单击右下方 "数据" 面板中的 上载 以在本地上载这些数据资产。 您可以在编辑面板中预览数据资产。

    注意:在RStudio 中无法预览超过 5 MB 的数据集。
  6. 文件就绪后,将更改推送到 Git 存储库:

    • 通过从主编辑面板的菜单栏单击 Git 版本控制菜单:

      1. 单击 落实 ,然后选择要推送到 Git 存储库的所有已更改文件。
      2. 在RStudio会话中添加变更描述,并将暂存的变更提交到版本库的本地克隆中。
      3. 单击 推送 以将更改推送到远程存储库,其他用户可以在该存储库中查看和访问更改。
      4. 通过单击 Git 操作面板中的 拉取 ,您还可以将合作者所作的文件更改拉取到存储库克隆。
    • 通过从项目的操作栏中选择 Git 图标:

      1. 从菜单中单击 落实
      2. 添加描述,选择为项目选择的 Git 存储库分支,选择文件并落实更改。
      3. 从 Git 菜单中单击 推送 以将落实推送到存储库。

    Git 仓库中已推送的 R 文件不会作为资产添加到项目的 " 资产 "页面。 从 " 资产 "页面选择 " 查看本地分支 ",然后单击 " 新建代码任务 "按钮,即可创建针对这些文件运行的任务。

使用共享证书

在 RStudio IDE 中,您可以在默认集成 Git 的项目中使用共享的自定义平台级 CA 证书。 自定义平台级证书由管理员安装在一个集中位置,作为 Kubernetes 秘密(在 cpd-custom-ca-certs secret 中),这样多个用户在使用多个服务时可以使用同一个证书。 RStudio IDE 启动时会自动插入密文,因此您可以自动访问这些证书。 更多信息,请参阅创建存储共享自定义证书的密钥

存储中间 .rda 文件

您可以将任何中间文件,例如 ".rda和 ".md文件、日志或文本文件,存储在安装有watsonx 的任何存储卷中。 在启动RStudio会话时,会自动加载该存储卷。 由于此,所有项目合作者以及运行 R 脚本的 R Shiny 应用程序或作业都可以访问这些文件。

有关使用存储卷的详细信息,请参阅 管理存储卷

处理数据文件

在RStudio 中,您可以处理不同来源的数据文件:

在RStudioUI 的 "文件 "视图中,您可以使用

  • RStudio文件和 R 脚本"RStudio文件和 R 脚本存储在名为 "userfs的目录中。

    如果直接在 "userfs下添加数据文件,这些文件不会在项目中显示为数据资产,也无法在RStudio 中打开和预览。 此外,如果要在 "Watson Studio工具(例如 "Data Refinery)中继续使用这些数据文件,则需要将这些文件作为数据资产添加到项目中,请参见 "将数据文件添加为项目资产

  • 项目数据资产

    数据资产列示在名为 assets/data_asset 的目录中的 userfs下。 您可以在RStudio 中打开、查看和处理这些资产。 如果将常规文件添加到此目录,那么不会自动将该文件作为数据资产添加到项目中。 要将文件作为数据资产添加到项目,请参阅 添加项目资产。 将文件作为数据资产添加到项目中后,就可以在不同的工具中使用,如Watson Studio 中的 Data Preview、Data Refinery 或SPSS Modeler。

    无法打开和查看 assets/data_asset 目录中的已连接数据资产。 您只能通过RStudio 中的 R 脚本以编程方式访问连接的数据资产。 您目前无法在RStudio 中使用 "ibm-watson-studio-lib库。

  • userfs 下的子目录中的文件

    您在RStudio会话本地文件系统的 "userfs下创建的文件将被持久化。 例如,如果您停止RStudio 并在另一天重新启动,您将看到以前会话中的所有文件。

装入和访问数据

每种计算引擎类型的数据装入选项

每种计算引擎类型的数据装入选项
数据装入选项 Anaconda R 分布 R + 火花
将数据加载到sparkSessionDataFrame中
将数据装入 R 数据帧

生成可将数据直接加载到RStudio的代码

从本地文件装入数据

生成从本地文件向RStudio 插入数据的代码:

  1. 单击代码片段图标 代码片段图标 ,然后单击读取数据
  2. 从项目中选择数据源,然后选择 复制到剪贴板
  3. 将代码粘贴到RStudio文件编辑器中。

支持的文件类型:

  • CSV/定界文件
  • Excel 文件 (.xls , .xlsx 和 .xlsm)
  • JSON 文件
  • SAS 文件

从数据源连接装入数据

必须先创建或添加与项目的连接,然后才能从 IBM 数据服务或外部数据源装入数据。 请参阅 向项目添加连接

生成从数据库连接向RStudio 插入数据的代码:

  1. 单击代码片段图标 代码片段图标 ,然后单击读取数据
  2. 从项目中选择连接。
  3. 从连接中选择数据源,然后选择 复制到剪贴板
  4. 将代码粘贴到RStudio文件编辑器中。 生成的代码可快速开始使用数据集或连接。 对于生产系统,请仔细查看插入的代码以确定是否必须编写自己的代码以更好地满足您的需求。
  5. 如有必要,请为标有密钥图标的锁定数据连接输入个人凭证 关键图标。 这是一个一次性步骤,可为您永久解锁连接。 解锁连接后,将不再显示密钥图标。 请参阅为项目添加连接
  6. 如果无法为连接生成代码,请装入凭证并打开引用您的凭证的数据库连接。 编写代码以装入数据。

RStudio支持与 Jupyter 笔记本相同的数据库连接。 有关详细信息,请参阅 Notebook 中的数据装入支持

将数据文件添加为项目资产

您应该通过单击“ 将资产上传到项目” 图标来上传要在 RStudio 中使用的数据文件 将资产上传到项目图标 在项目的资产页面上,因为这些文件会自动作为数据资产添加到您的项目中。

不过,如果您在RStudio 中上传或创建了数据文件,则可以将这些文件作为项目数据资产添加到项目中。 这些文件必须放在RStudio 的 "assets/data_asset文件夹中。 要将这些文件作为数据资产添加到项目:

  1. 在项目的 "资产" 页面上,单击 导入资产
  2. 选择 项目文件 以及 project_data_assets 文件夹中要作为资产添加到项目的文件。

将 R 脚本作为作业运行

你可以在Watson Studio的RStudio环境中或远程Hadoop集群上将脚本作为作业运行。 请参阅:

  • 要创建作业以在RStudio环境中运行 R 脚本,请参阅创建基于代码的作业

  • 要创建作业以在 Hadoop 集群上运行 R 脚本,您需要支持 R 和 R 脚本的 Hadoop 集群。 此外,必须通过修改配置文件在 Hadoop 集群上启用该功能。 请参阅 JSON 文件内容的详细信息 下的 管理 Apache Hadoop 集群子节 scriptLanguages 以获取更多详细信息。 您的 R 脚本所需的所有库都必须在集群上可用。

    要在 Hadoop 集群上运行作业,必须首先创建 Hadoop 环境。 创建此 Hadoop Yarn 环境后,可以在从项目的 " 作业 " 页面为 R 脚本创建作业时选择该环境。

创建 Hadoop Yarn 环境

  1. Watson Studio 管理员必须将 Hadoop 集群配置添加到您的平台。
    1. 从 Watson Studio主页上的三明治按钮打开下拉菜单,然后单击 配置平台
    2. 单击 添加注册 以将 Hadoop 集群添加到项目的配置。
  2. 现在转至您的项目,单击 环境 页面。 请单击 新建模板 以创建定制环境。
  3. 为定制环境提供名称后,选择 Hadoop 作为环境类型。
  4. 选择要使用的 Hadoop 配置。
  5. 为 R 脚本设置的 Hadoop 集群需要能够使用 Yarn ,因为某些 R 脚本需要使用 Yarn。 如果正确设置了集群,那么将显示名为 执行类型 的字段,用户可以在该字段中选择 Yarn 作为执行类型。 如果未看到 执行类型的选项,那么 Hadoop 管理员可能未设置 Hadoop 集群和配置文件以支持 R 环境。 在 Hadoop 端完成设置时,管理员必须先刷新 Hadoop 注册,然后才能使用 "执行类型" 选项。 您可以选择 "Yarn" 以运行 R 脚本。
  6. 选择语言, Yarn 大小和 Yarn 容器内存。 这些字段以管理员的设置为界限。
  7. 单击 创建 以完成环境的创建。
  8. 稍后可以通过单击 环境 页面下的环境来更改定制环境的缺省设置 (例如,增加或减少 Yarn 容器的内存)。

在空间中部署脚本

您可以通过以下方法将资产从具有缺省 Git 集成的项目移动到部署空间:

  1. 在 Git 提供程序的用户界面中创建 Git 归档文件 (包含特定分支或标记中的存储库内容的 ZIP 文件)。
  2. 正在将此 ZIP 文件导入到现有部署空间中。

因此,会创建一个代码包资产,其中包含您使用RStudio 创建的所有代码文件。 请参阅 将空间和项目导入到现有部署空间

使用提示

如果在集群上安装了 watsonx.ai 服务,那么可以将特定模型的各种样本提示添加到 R 代码中。 要添加示例提示,请单击代码片段图标 代码片段图标 ,选择提示工程 ,然后浏览各种类别以查找示例提示。 选择提示后,点击 "复制到剪贴板,然后将代码粘贴到 "RStudio文件编辑器中。

了解更多

母题: RStudio