快速入门:分析 Jupyter Notebook 中的数据

您可以创建 Notebook,用于运行代码以准备、可视化和分析数据,或者构建和训练模型。 阅读有关 Jupyter Notebook 的信息,然后观看视频并学习适合具有一些 Python 代码知识的用户的教程。

必需服务
Watson Studio

基本工作流程包含以下任务:

  1. 创建项目。 项目是您与其他人协作处理数据的地方。
  2. 将您的数据添加到项目中。 您可以通过连接从远程数据源添加 CSV 文件或数据。
  3. 在项目中创建 Notebook。
  4. 将代码添加到 Notebook 以装入和分析数据。
  5. 运行您的 Notebook 并与同事分享结果。

阅读有关 Notebook 的信息

Jupyter Notebook 是基于 Web 的交互式计算环境。 您可以运行处理数据的小块代码,并可以立即查看计算结果。 Notebook 中包含处理数据所需的所有构建块:

  • 数据
  • 用于处理数据的代码计算
  • 结果直观表示
  • 用于增进了解的文本和富媒体

阅读有关 Notebook 的更多信息

观看有关 Notebook 的视频

观看视频 观看此视频以了解 Jupyter Notebook 的基础知识。

此视频提供了一种可视方法来学习本文档中的概念和任务。


尝试利用教程创建 Notebook

在本教程中,您将完成以下任务:

完成本教程大约需要 15 分钟。




完成本教程的提示
以下是成功完成本教程的一些提示。

在社区中获取帮助

如果需要本教程的帮助,您可以在 Cloud Pak for Data 社区讨论论坛中提出问题或找到答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



任务 1: 打开项目

您需要一个项目来存储 Notebook 和数据资产。 您可以使用现有项目或创建项目。 执行以下步骤以打开项目并将数据资产添加到项目:

  1. 导航菜单 导航菜单中,选择 项目> 所有项目

  2. 打开现有项目。 如果要使用新项目:

    1. 单击新建项目

    2. 选择创建空项目

    3. 输入项目的名称和可选描述。

    4. 单击创建

  3. 下载 precipitation.csv 文件

  4. precipitation.csv 文件添加到项目:

    1. 从项目中,单击 将资产上载到项目 图标 将资产上载到项目

    2. 在打开的侧面板中,浏览以选择 precipitation.csv 文件,然后单击 打开。 请停留在该页面,直至装入完成为止。
      precipitation.csv 文件将作为数据资产添加到项目中。

有关更多信息,请参阅 创建项目

检查点图标 检查进度

下图显示了项目中的 "资产" 选项卡。

下图显示了项目中的 "资产" 选项卡。




任务 2: 向项目添加 Notebook

执行以下步骤以在项目中创建新的 Notebook。

  1. 在您的项目中,资产选项卡,点击新资产 > 使用数据和模型Python或 R 笔记本

  2. 输入名称和描述 (可选)。

  3. 选择此 Notebook 的运行时环境。

  4. 单击创建。 等待 Notebook 编辑器装入。

检查点图标 检查进度

下图显示了空白 Notebook。

下图显示了空白笔记本。




任务 3: 装入文件并保存 Notebook

现在,您可以访问先前上载到项目的 Notebook 中的数据资产。 执行以下步骤以将数据装入到数据帧中:

  1. 单击 Notebook 中的空代码单元格。

  2. 单击 代码片段 图标 (代码片段)。

  3. 在侧窗格中,单击 读取数据

  4. 单击 从项目中选择数据

  5. 从项目中找到数据资产,然后单击 选择

  6. 装入方式 下拉列表中,选择您首选的装入选项。

  7. 单击 将代码插入单元格。 用于读取和装入数据资产的代码将插入到单元格中。

  8. 单击 运行 图标 运行 以运行代码。 将显示数据集的前几行。

  9. 要保存 Notebook 版本,请单击 文件> 保存 Notebook 版本。 您还可以使用 文件> 保存文件来保存 Notebook。

检查点图标 检查进度

下图显示了具有 pandas DataFrame的 Notebook。

下图显示了具有 pandas DataFrame的 Notebook。




任务 4: 查找和编辑 Notebook

执行以下步骤以在 "资产" 选项卡上找到已保存的 Notebook ,然后编辑该 Notebook:

  1. 在项目导航跟踪中,单击项目名称以返回到项目。

  2. 单击 资产 选项卡以查找 Notebook。

  3. 单击 Notebook 时,它将以 READ ONLY 方式打开。

  4. 要编辑笔记本,请单击 画笔 图标 Pencil

  5. 单击 信息 图标 信息 以打开 " 信息 " 面板。

  6. 常规选项卡上,编辑 Notebook 的名称和描述。

  7. 单击 环境 选项卡以查看如何更改用于运行 Notebook 的环境或将运行时状态更新为 "停止" 和 "重新启动"。

检查点图标 检查进度

下图显示了显示了 "信息" 面板的笔记本。

下图显示了显示了 "信息" 面板的 Notebook。




任务 5: 共享笔记本的只读版本

执行以下步骤以创建指向 Notebook 的链接,以便与同事共享:

  1. 如果要共享 Notebook 的只读视图,请单击 共享 图标 共享

  2. 单击以开启与具有链接的任何人共享切换按钮。

  3. 选择要通过链接或社交媒体共享的内容。

  4. 单击 复制 图标 复制 以复制指向此 Notebook 的直接链接。

  5. 单击关闭

检查点图标 检查进度

下图显示了 "共享" 对话框。

下图显示了 "共享" 对话框。




任务 6: 调度 Notebook 在不同时间运行

请遵循以下步骤来创建作业,以将 Notebook 调度为在特定时间运行,或者根据调度重复执行:

  1. 单击 作业 图标,然后选择 创建作业
    创建作业

  2. 提供作业的名称和描述,然后单击下一步

  3. 选择 Notebook 版本和环境运行时,然后单击下一步

  4. (可选)单击切换按钮以安排运行。 指定日期、时间以及是否希望重复运行作业,然后单击下一步

  5. (可选) 单击切换按钮以接收此作业的通知,然后单击 下一步

  6. 查看详细信息,然后单击创建(创建作业,但不立即运行作业)或创建并运行(立即运行作业)。

  7. 该作业将显示在项目的作业选项卡中。

检查点图标 检查进度

下图显示了 "作业" 选项卡。

下图显示了 "作业" 选项卡。



后续步骤

现在,您可以使用此数据集开展进一步分析。 例如,您或其他用户可以执行以下任何任务:

其他资源

父主题: 快速入门教程