在RStudio中使用已废弃的Git集成Watson Studio
您可以在不推荐使用 Git 集成的项目中创建 R 脚本和 R Shiny 应用程序。
R Shiny 是一个 R 包,便于直接从 R 中开发交互式 Web 应用程序。 您可以在RStudio 中创建、开发和完善 Shiny 应用程序,无论是创建独特的数据可视化仪表板,还是将应用程序发布到不同的地方,例如部署空间。
创建 R 脚本和 Shiny 应用程序
启动RStudio时,目录浏览器应在右下方打开。 如果您在RStudio中使用Git,请导航到 "<your_git_repo>/assets/rstudio,以确保所有文件都从该文件夹同步。 您可以根据需要使用不同的 R 文件创建任意数量的子文件夹。
Git扩展已预装,可在启动时访问与项目相关联的资源库,并在RStudio工具栏上添加Git选项卡。
RStudio环境会在启动时克隆项目中引用的Git仓库,并在 IDE GUI 右下方的文件浏览器中查看名为 "project_git_repo/<your_git_repo>的文件夹。 您必须在该文件夹中完成对 R 文件的所有修改,才能与Git 同步。 否则,可以将其保存到您想要的任何位置。
请注意,如果文件夹或子文件夹包含 RShiny 应用程序文件 (即名称为 app.R, ui.R 或 server.R的文件) ,那么该文件夹中的所有文件都被视为属于 Shiny 应用程序 (包括 .R 文件)。 否则,所有 .R 文件都被视为 R 脚本资产。
可选: 如果要与其他人一起使用同一文件,请将合作者添加到项目中。 请参阅 协作。
可选: 从全局位置
/cc-home/_global_/R或持久存储卷中的外部网络预安装为 Shiny 应用程序提供的任何 R 库,以避免每次部署 Shiny 应用程序时都安装这些库。 部署 Shiny 应用程序时,请确保您已连接到存储卷。开始处理 R 脚本:
- 选择 新建文件> R 脚本 或从本地机器上载 R 文件。
- 在完成处理这些文件之后,通过单击 文件> 保存将文件更改保存到本地克隆,然后再落实到 Git 存储库。
或者通过以下方式开始处理 Shiny 应用程序:
- 单击 新建文件 > Shiny Web 应用程序 ...。 此时将弹出一个新的 Shiny 应用程序创建窗口。
- 输入 Shiny 应用程序的名称,并将
userfs保留为 在目录中创建 设置。 必须在此目录或任何子目录中工作才能启用与 Git 存储库的同步。app.R和ui.R/server.R都包含构建应用程序所需的指示信息,并提供用户可以测试运行的样本应用程序。 - 如果应用程序很简单并且可以包含在一个文件中,那么可以选择创建单个文件应用程序 (
app.R) ,以实现简单性。 - 或者,如果应用程序更复杂并且需要单独编辑其不同构面,那么可以选择创建使用多个文件 (
ui.R/server.R) 的应用程序。 - 完成配置后,单击 创建。
- 您可以通过单击 运行应用程序来测试应用程序的运行。 单击 运行应用程序时,将在屏幕上显示包含应用程序的弹出窗口。
您可以在脚本或应用程序中使用来自数据集的数据。 受支持的数据集格式包括文本, CSV , SPSS, SAS 和 Stata。 您可以使用已导入到项目中的数据资产,方法是单击 环境 选项卡下的 导入数据集 ,或者单击 文件 并浏览
userfs/assets/data-asset下的文件,或者单击右下方的 "数据" 面板中的 上载 以在本地上载这些数据资产。 您可以在编辑面板中预览数据资产。注意:超过 5 MB 的数据集将无法在RStudio 中预览。使用主编辑面板的顶部菜单栏上的 Git 按钮将文件更改推送到 Git 存储库。 单击 落实。
- 选择已对其进行更改并要推送到 Git 存储库的所有文件。 在RStudio会话中添加变更描述,并将暂存的变更提交到版本库的本地克隆中。
- 单击 推送 以将更改推送到远程存储库,其他用户可以在该存储库中查看和访问更改。 解决对您正在协作的文件进行的竞争更改可能导致的任何合并冲突。 通过单击 Git 操作面板中的 拉取 ,还可以将合作者所作的文件更改拉取到存储库克隆。
推送更改后,将对 Git 存储库所作的更改与项目中的 R 脚本同步。 请参阅 将 Git 更改与项目同步。
通过将 Git R 文件更改与项目同步,可更新公共共享项目克隆以反映上次推送到 Git 存储库的内容。
R 文件将显示为项目资产,然后您可以单击这些资产以预览并升级到部署空间。 可以在 Watson Studio 中预览常规代码和文本文件,而无法预览其他代码和文本文件。 请注意,如果不先启动RStudio,就无法编辑、运行和同步 R 文件。
密切协作
通过 "RStudio中的 "Git扩展名添加 "Git版本控制系统后,用户可以共享 "RStudio中的文件。 要在处理文件时实现共享,用户必须作为协作者添加到项目中,并且必须有访问相关项目Git仓库的权限。
使项目中的用户能够在RStudio 中协作修改文件:
将用户作为合作者添加到项目,并为其分配 管理员 或 编辑者 角色。 您只能邀请拥有现有IBM Cloud Pak for Data帐户的用户。 请参阅 添加合作者。
授予所有合作者对项目 Git 存储库的相应访问许可权。
指示所有合作者为关联的项目存储库创建他们自己的个人访问令牌。 请参阅 为 Git 存储库创建个人访问令牌。
打开RStudio 后,你会在列表中看到个人Git访问令牌。 选择它以开始RStudio项目的工作。
存储中间 .rda 文件
您可以将任何中间文件 (例如 .rda 和 .md 文件,日志或文本文件) 存储在目录 /project_data_folder/data_asset中,该目录是项目克隆的一部分,因此可以由所有项目合作者以及运行 R 脚本的 R Shiny 应用程序或作业进行访问。
处理数据文件
在RStudio 中,您可以处理不同来源的数据文件:
RStudio服务器文件结构中的文件,点击RStudio 右下方的文件即可查看。 您可以在此创建文件夹,从本地系统上载文件以及删除文件。
要在 R 中访问这些文件,您需要将工作目录设置为包含这些文件的目录。 您可以通过浏览至包含文件的目录并单击 更多> 设置为工作目录来执行此操作。
请注意,存储在RStudio实例 "
Home目录下的文件只能在您的实例中持久保存,不能在不同环境或项目中共享。
观看本视频,了解如何将数据加载到RStudio。
此视频提供了一种可视方法来学习本文档中的概念和任务。
点击RStudio 右下方的 "文件">"主页",即可查看项目数据资产。 在已废弃Git集成的项目中,数据资产位于名为 "
project_data_asset的文件夹中。 在默认集成了Git的项目中,数据资产位于名为 "assets/data_asset的文件夹中。 您可以选择查看文件内容或通过单击资产来导入数据集。如果将数据文件添加到此文件夹,那么不会将该文件作为数据资产添加到项目中。 要将数据文件添加为项目数据资产,请参阅 添加项目资产。
无法打开和查看
project_data_asset目录中的已连接数据资产。 您只能通过RStudio 中的 R 脚本以编程方式访问连接的数据资产。存储在数据库系统中的 数据 。
装入和访问数据
每种计算引擎类型的数据装入选项
| 数据装入选项 | Anaconda R 分布 | R + 火花 |
|---|---|---|
| 将数据加载到sparkSessionDataFrame中 | ✓ | |
| 将数据装入 R 数据帧 | ✓ | ✓ |
生成可将数据直接加载到RStudio的代码
从本地文件装入数据
生成从本地文件向RStudio 插入数据的代码:
- 单击 "代码片段"图标
,然后单击 "读取数据"。 - 从项目中选择数据源,然后选择 复制到剪贴板。
- 将代码粘贴到RStudio文件编辑器中。
支持的文件类型:
- CSV/定界文件
- Excel 文件 (.xls , .xlsx 和 .xlsm)
- JSON 文件
- SAS 文件
从数据源连接装入数据
必须先创建或添加与项目的连接,然后才能从 IBM 数据服务或外部数据源装入数据。 请参阅 向项目添加连接。
生成从数据库连接向RStudio 插入数据的代码:
- 单击 "代码片段"图标
,然后单击 "读取数据"。 - 从项目中选择连接。
- 从连接中选择数据源,然后选择 复制到剪贴板。
- 将代码粘贴到RStudio文件编辑器中。 生成的代码可快速开始使用数据集或连接。 对于生产系统,请仔细查看插入的代码,以确定是否应该编写自己的代码以更好地满足您的需求。
- 如有必要,请为标有密钥图标
的锁定数据连接输入个人凭证。 这是一个一次性步骤,可为您永久解锁连接。 解锁连接后,将不再显示密钥图标。 请参阅为项目添加连接。 - 如果无法为连接生成代码,请装入凭证并打开引用您的凭证的数据库连接。 编写代码以装入数据。
RStudio支持与 Jupyter 笔记本相同的数据库连接。 有关详细信息,请参阅 Notebook 中的数据装入支持。
添加或删除项目资产
在项目的 "资产"(Assets)页面上点击 "上传资产到项目"(Upload asset to project)图标 "
,上传要在RStudio中使用的数据文件,因为这些文件会作为数据资产自动添加到项目中。
不过,如果您在RStudio 中上传或创建了数据文件,则可以将这些文件作为项目数据资产添加到项目中。 这些文件必须放在RStudio 的 "Home/project_data_asset文件夹中。 要将这些文件作为数据资产添加到项目:
- 在项目的 "资产" 页面上,单击 导入资产。
- 选择 项目文件 以及
Home/project_data_asset文件夹中要作为资产添加到项目的文件。
如果从RStudio 的 "Home/project_data_asset文件夹中删除数据资产,则必须通过以下方式删除项目中的数据资产:
- 在项目的 "资产" 页面上,选择要删除的数据资产。
- 从选项列表中选择 删除 。
将 R 脚本作为作业运行
你可以在Watson Studio的RStudio环境中或远程Hadoop集群上将脚本作为作业运行。 请参阅:
要创建作业以在RStudio环境中运行 R 脚本,请参阅为已废弃的Git集成项目中的文件创建作业。
要创建作业以在 Hadoop 集群上运行 R 脚本,需要支持 R 和 R 脚本的 Hadoop 集群,并且需要通过修改配置文件在 Hadoop 集群上启用该功能。 请参阅 有关 JSON 文件内容的详细信息 下的 管理 Apache Hadoop 集群子部分
scriptLanguages以获取更多详细信息。 此外, R 脚本所需的所有库都必须在集群上可用。要在 Hadoop 集群上运行作业,必须首先创建 Hadoop 环境。 在创建此 Hadoop Yarn 环境之后,可以在从项目的 " 资产 " 页面为 R 脚本创建作业时选择该环境。
创建 Hadoop Yarn 环境
- Watson Studio 管理员需要将 Hadoop 集群配置添加到您的平台。
- 从 Watson Studio主页上的三明治按钮打开下拉菜单,然后单击 配置平台。
- 单击 添加注册 以将 Hadoop 集群添加到项目的配置。
- 现在转至您的项目,单击 环境 页面。 请单击 新建模板 以创建定制环境。
- 为定制环境提供名称后,选择 Hadoop 作为环境类型。
- 选择要使用的 Hadoop 配置。
- 为 R 脚本设置的 Hadoop 集群需要能够使用 Yarn ,因为某些 R 脚本需要使用 Yarn。 如果正确设置了集群,那么将显示名为 执行类型 的字段,用户可以在该字段中选择 Yarn 作为执行类型。 如果您未看到 执行类型的选项,那么 Hadoop 管理员可能尚未设置 Hadoop 集群和配置文件以支持 R 环境。 在 Hadoop 端完成设置后,管理员将需要先刷新 Hadoop 注册,然后才能使用 "执行类型" 选项。 您可以选择 "Yarn" 以运行 R 脚本。
- 选择语言, Yarn 大小和 Yarn 容器内存。 这些字段以管理员的设置为界限。
- 单击 创建 以完成环境的创建。
- 稍后,您可以通过单击 环境 页面下的环境来更改定制环境的缺省设置,例如,增大或减小 Yarn 容器的内存。
创建应用程序部署
如果项目中保存了 R Shiny 资产,就可以将其推广到部署空间,然后将其部署为应用程序,并向用户提供URL。
要创建应用程序部署:
- 在部署空间中,单击要部署的已保存 R Shiny 应用程序的名称。 此时将打开资产详细信息页面。
- 从部署选项卡中,单击添加新部署。
- 选择 应用程序 作为部署类型。
- 提供名称并调整部署的任何可选设置,然后单击 "创建部署" 以创建部署。 您可以配置的可选设置包括:
| 设置 | 描述 |
|---|---|
| 软件配置 | 不可配置。 它必须与用于创建资产的 R 版本相匹配。 |
| 硬件配置 | 选择要与应用程序匹配的硬件配置。 |
| 复印件 | 要创建的副本数。 |
| 共享者 | 选择是否与下列人员共享 --任何拥有URL的用户 " --任何经过验证的用户(已登录watsonx) " --项目中的协作用户 |
使用提示
如果在集群上安装了 watsonx.ai 服务,那么可以将特定模型的各种样本提示添加到 R 代码中。 要添加示例提示,请单击代码片段图标
,选择提示工程,然后浏览各种类别以查找示例提示。 选择提示后,点击 "复制到剪贴板,然后将代码粘贴到 "RStudio文件编辑器中。
了解更多
- 使用不推荐的 Git 集成为项目中的文件创建作业
- RStudio概览
- Hadoop 环境
- 在RStudio中使用 Spark
- 使用 Anaconda 存储库中的 libs
- 使用 RMariaDB 库访问 MySQL 数据库中的数据
- 将 Shiny 应用程序连接到持久存储卷
母题: RStudio