在RStudio中使用已废弃的Git集成Watson Studio

您可以在不推荐使用 Git 集成的项目中创建 R 脚本和 R Shiny 应用程序。

R Shiny 是一个 R 包,便于直接从 R 中开发交互式 Web 应用程序。 您可以在RStudio 中创建、开发和完善 Shiny 应用程序,无论是创建独特的数据可视化仪表板,还是将应用程序发布到不同的地方,例如部署空间。

创建 R 脚本和 Shiny 应用程序

启动RStudio时,目录浏览器应在右下方打开。 如果您在RStudio中使用Git,请导航到 "<your_git_repo>/assets/rstudio,以确保所有文件都从该文件夹同步。 您可以根据需要使用不同的 R 文件创建任意数量的子文件夹。

Git扩展已预装,可在启动时访问与项目相关联的资源库,并在RStudio工具栏上添加Git选项卡。

RStudio环境会在启动时克隆项目中引用的Git仓库,并在 IDE GUI 右下方的文件浏览器中查看名为 "project_git_repo/<your_git_repo>的文件夹。 您必须在该文件夹中完成对 R 文件的所有修改,才能与Git 同步。 否则,可以将其保存到您想要的任何位置。

重要信息: 克隆是从创建项目时选择的 Git 存储库分支中提取的。

请注意,如果文件夹或子文件夹包含 RShiny 应用程序文件 (即名称为 app.Rui.Rserver.R的文件) ,那么该文件夹中的所有文件都被视为属于 Shiny 应用程序 (包括 .R 文件)。 否则,所有 .R 文件都被视为 R 脚本资产。

  1. 可选: 如果要与其他人一起使用同一文件,请将合作者添加到项目中。 请参阅 协作

  2. 可选: 从全局位置 /cc-home/_global_/R 或持久存储卷中的外部网络预安装为 Shiny 应用程序提供的任何 R 库,以避免每次部署 Shiny 应用程序时都安装这些库。 部署 Shiny 应用程序时,请确保您已连接到存储卷。

  3. 开始处理 R 脚本:

    1. 选择 新建文件> R 脚本 或从本地机器上载 R 文件。
    2. 在完成处理这些文件之后,通过单击 文件> 保存将文件更改保存到本地克隆,然后再落实到 Git 存储库。
  4. 或者通过以下方式开始处理 Shiny 应用程序:

    1. 单击 新建文件 > Shiny Web 应用程序 ...。 此时将弹出一个新的 Shiny 应用程序创建窗口。
    2. 输入 Shiny 应用程序的名称,并将 userfs 保留为 在目录中创建 设置。 必须在此目录或任何子目录中工作才能启用与 Git 存储库的同步。 app.Rui.R/server.R 都包含构建应用程序所需的指示信息,并提供用户可以测试运行的样本应用程序。
    3. 如果应用程序很简单并且可以包含在一个文件中,那么可以选择创建单个文件应用程序 (app.R) ,以实现简单性。
    4. 或者,如果应用程序更复杂并且需要单独编辑其不同构面,那么可以选择创建使用多个文件 (ui.R/server.R) 的应用程序。
    5. 完成配置后,单击 创建
    6. 您可以通过单击 运行应用程序来测试应用程序的运行。 单击 运行应用程序时,将在屏幕上显示包含应用程序的弹出窗口。
  5. 您可以在脚本或应用程序中使用来自数据集的数据。 受支持的数据集格式包括文本, CSV , SPSS, SAS 和 Stata。 您可以使用已导入到项目中的数据资产,方法是单击 环境 选项卡下的 导入数据集 ,或者单击 文件 并浏览 userfs/assets/data-asset下的文件,或者单击右下方的 "数据" 面板中的 上载 以在本地上载这些数据资产。 您可以在编辑面板中预览数据资产。

    注意:超过 5 MB 的数据集将无法在RStudio 中预览。
  6. 使用主编辑面板的顶部菜单栏上的 Git 按钮将文件更改推送到 Git 存储库。 单击 落实

    1. 选择已对其进行更改并要推送到 Git 存储库的所有文件。 在RStudio会话中添加变更描述,并将暂存的变更提交到版本库的本地克隆中。
    2. 单击 推送 以将更改推送到远程存储库,其他用户可以在该存储库中查看和访问更改。 解决对您正在协作的文件进行的竞争更改可能导致的任何合并冲突。 通过单击 Git 操作面板中的 拉取 ,还可以将合作者所作的文件更改拉取到存储库克隆。
  7. 推送更改后,将对 Git 存储库所作的更改与项目中的 R 脚本同步。 请参阅 将 Git 更改与项目同步

    通过将 Git R 文件更改与项目同步,可更新公共共享项目克隆以反映上次推送到 Git 存储库的内容。

    R 文件将显示为项目资产,然后您可以单击这些资产以预览并升级到部署空间。 可以在 Watson Studio 中预览常规代码和文本文件,而无法预览其他代码和文本文件。 请注意,如果不先启动RStudio,就无法编辑、运行和同步 R 文件。

密切协作

通过 "RStudio中的 "Git扩展名添加 "Git版本控制系统后,用户可以共享 "RStudio中的文件。 要在处理文件时实现共享,用户必须作为协作者添加到项目中,并且必须有访问相关项目Git仓库的权限。

使项目中的用户能够在RStudio 中协作修改文件:

  1. 将用户作为合作者添加到项目,并为其分配 管理员编辑者 角色。 您只能邀请拥有现有IBM Cloud Pak for Data帐户的用户。 请参阅 添加合作者

  2. 授予所有合作者对项目 Git 存储库的相应访问许可权。

  3. 指示所有合作者为关联的项目存储库创建他们自己的个人访问令牌。 请参阅 为 Git 存储库创建个人访问令牌

    打开RStudio 后,你会在列表中看到个人Git访问令牌。 选择它以开始RStudio项目的工作。

存储中间 .rda 文件

您可以将任何中间文件 (例如 .rda.md 文件,日志或文本文件) 存储在目录 /project_data_folder/data_asset中,该目录是项目克隆的一部分,因此可以由所有项目合作者以及运行 R 脚本的 R Shiny 应用程序或作业进行访问。

处理数据文件

在RStudio 中,您可以处理不同来源的数据文件:

  • RStudio服务器文件结构中的文件,点击RStudio 右下方的文件即可查看。 您可以在此创建文件夹,从本地系统上载文件以及删除文件。

    要在 R 中访问这些文件,您需要将工作目录设置为包含这些文件的目录。 您可以通过浏览至包含文件的目录并单击 更多> 设置为工作目录来执行此操作。

    请注意,存储在RStudio实例 "Home目录下的文件只能在您的实例中持久保存,不能在不同环境或项目中共享。

观看本视频,了解如何将数据加载到RStudio。

此视频提供了一种可视方法来学习本文档中的概念和任务。

  • 点击RStudio 右下方的 "文件">"主页",即可查看项目数据资产。 在已废弃Git集成的项目中,数据资产位于名为 "project_data_asset的文件夹中。 在默认集成了Git的项目中,数据资产位于名为 "assets/data_asset的文件夹中。 您可以选择查看文件内容或通过单击资产来导入数据集。

    如果将数据文件添加到此文件夹,那么不会将该文件作为数据资产添加到项目中。 要将数据文件添加为项目数据资产,请参阅 添加项目资产

    无法打开和查看 project_data_asset 目录中的已连接数据资产。 您只能通过RStudio 中的 R 脚本以编程方式访问连接的数据资产。

  • 存储在数据库系统中的 数据

装入和访问数据

每种计算引擎类型的数据装入选项

每种计算引擎类型的数据装入选项
数据装入选项 Anaconda R 分布 R + 火花
将数据加载到sparkSessionDataFrame中
将数据装入 R 数据帧

生成可将数据直接加载到RStudio的代码

从本地文件装入数据

生成从本地文件向RStudio 插入数据的代码:

  1. 单击 "代码片段"图标代码片段图标,然后单击 "读取数据"。
  2. 从项目中选择数据源,然后选择 复制到剪贴板
  3. 将代码粘贴到RStudio文件编辑器中。

支持的文件类型:

  • CSV/定界文件
  • Excel 文件 (.xls , .xlsx 和 .xlsm)
  • JSON 文件
  • SAS 文件

从数据源连接装入数据

必须先创建或添加与项目的连接,然后才能从 IBM 数据服务或外部数据源装入数据。 请参阅 向项目添加连接

生成从数据库连接向RStudio 插入数据的代码:

  1. 单击 "代码片段"图标代码片段图标,然后单击 "读取数据"。
  2. 从项目中选择连接。
  3. 从连接中选择数据源,然后选择 复制到剪贴板
  4. 将代码粘贴到RStudio文件编辑器中。 生成的代码可快速开始使用数据集或连接。 对于生产系统,请仔细查看插入的代码,以确定是否应该编写自己的代码以更好地满足您的需求。
  5. 如有必要,请为标有密钥图标关键图标 的锁定数据连接输入个人凭证。 这是一个一次性步骤,可为您永久解锁连接。 解锁连接后,将不再显示密钥图标。 请参阅为项目添加连接
  6. 如果无法为连接生成代码,请装入凭证并打开引用您的凭证的数据库连接。 编写代码以装入数据。

RStudio支持与 Jupyter 笔记本相同的数据库连接。 有关详细信息,请参阅 Notebook 中的数据装入支持

添加或删除项目资产

在项目的 "资产"(Assets)页面上点击 "上传资产到项目"(Upload asset to project)图标 "将资产上传到项目图标,上传要在RStudio中使用的数据文件,因为这些文件会作为数据资产自动添加到项目中。

不过,如果您在RStudio 中上传或创建了数据文件,则可以将这些文件作为项目数据资产添加到项目中。 这些文件必须放在RStudio 的 "Home/project_data_asset文件夹中。 要将这些文件作为数据资产添加到项目:

  1. 在项目的 "资产" 页面上,单击 导入资产
  2. 选择 项目文件 以及 Home/project_data_asset 文件夹中要作为资产添加到项目的文件。

如果从RStudio 的 "Home/project_data_asset文件夹中删除数据资产,则必须通过以下方式删除项目中的数据资产:

  1. 在项目的 "资产" 页面上,选择要删除的数据资产。
  2. 从选项列表中选择 删除

将 R 脚本作为作业运行

你可以在Watson Studio的RStudio环境中或远程Hadoop集群上将脚本作为作业运行。 请参阅:

  • 要创建作业以在RStudio环境中运行 R 脚本,请参阅为已废弃的Git集成项目中的文件创建作业

  • 要创建作业以在 Hadoop 集群上运行 R 脚本,需要支持 R 和 R 脚本的 Hadoop 集群,并且需要通过修改配置文件在 Hadoop 集群上启用该功能。 请参阅 有关 JSON 文件内容的详细信息 下的 管理 Apache Hadoop 集群子部分 scriptLanguages 以获取更多详细信息。 此外, R 脚本所需的所有库都必须在集群上可用。

    要在 Hadoop 集群上运行作业,必须首先创建 Hadoop 环境。 在创建此 Hadoop Yarn 环境之后,可以在从项目的 " 资产 " 页面为 R 脚本创建作业时选择该环境。

创建 Hadoop Yarn 环境

  1. Watson Studio 管理员需要将 Hadoop 集群配置添加到您的平台。
    1. 从 Watson Studio主页上的三明治按钮打开下拉菜单,然后单击 配置平台
    2. 单击 添加注册 以将 Hadoop 集群添加到项目的配置。
  2. 现在转至您的项目,单击 环境 页面。 请单击 新建模板 以创建定制环境。
  3. 为定制环境提供名称后,选择 Hadoop 作为环境类型。
  4. 选择要使用的 Hadoop 配置。
  5. 为 R 脚本设置的 Hadoop 集群需要能够使用 Yarn ,因为某些 R 脚本需要使用 Yarn。 如果正确设置了集群,那么将显示名为 执行类型 的字段,用户可以在该字段中选择 Yarn 作为执行类型。 如果您未看到 执行类型的选项,那么 Hadoop 管理员可能尚未设置 Hadoop 集群和配置文件以支持 R 环境。 在 Hadoop 端完成设置后,管理员将需要先刷新 Hadoop 注册,然后才能使用 "执行类型" 选项。 您可以选择 "Yarn" 以运行 R 脚本。
  6. 选择语言, Yarn 大小和 Yarn 容器内存。 这些字段以管理员的设置为界限。
  7. 单击 创建 以完成环境的创建。
  8. 稍后,您可以通过单击 环境 页面下的环境来更改定制环境的缺省设置,例如,增大或减小 Yarn 容器的内存。

创建应用程序部署

如果项目中保存了 R Shiny 资产,就可以将其推广到部署空间,然后将其部署为应用程序,并向用户提供URL。

要创建应用程序部署:

  1. 在部署空间中,单击要部署的已保存 R Shiny 应用程序的名称。 此时将打开资产详细信息页面。
  2. 部署选项卡中,单击添加新部署
  3. 选择 应用程序 作为部署类型。
  4. 提供名称并调整部署的任何可选设置,然后单击 "创建部署" 以创建部署。 您可以配置的可选设置包括:
设置 描述
软件配置 不可配置。 它必须与用于创建资产的 R 版本相匹配。
硬件配置 选择要与应用程序匹配的硬件配置。
复印件 要创建的副本数。
共享者 选择是否与下列人员共享
--任何拥有URL的用户 "
--任何经过验证的用户(已登录watsonx) "
--项目中的协作用户

使用提示

如果在集群上安装了 watsonx.ai 服务,那么可以将特定模型的各种样本提示添加到 R 代码中。 要添加示例提示,请单击代码片段图标代码片段图标,选择提示工程,然后浏览各种类别以查找示例提示。 选择提示后,点击 "复制到剪贴板,然后将代码粘贴到 "RStudio文件编辑器中。

了解更多

母题: RStudio