教程:开始在 IBM Integrated Analytics System 上使用 Data Science Experience

本教程说明如何在 Integrated Analytics System 上开始使用 IBM Data Science Experience (DSX) Local 分析数据。

本教程说明如何执行下列任务:

所需时间

5 分钟

方案

您是一位有权访问 Integrated Analytics System 的数据研究员,您想了解如何使用集成的 Data Science Experience 来分析数据。

难度

初学者

受众

数据研究员,或者任何对探索 Integrated Analytics System 上的 DSX 感兴趣的人员。

先决条件

您在 Integrated Analytics System 上必须有一个用户帐户。否则,请联系您的 Integrated Analytics System 系统管理员,请他为您创建帐户。您还必须知道 Integrated Analytics System 的控制台登录页面的链接 (URL)。

登录 Integrated Analytics System

在 IIAS 上启动 DSX 有两种方法:

过程

  • 从 IIAS Web 控制台启动 DSX:
    1. 单击或输入 Integrated Analytics System Web 控制台登录页面 URL。登录页面显示后,请输入您的用户标识和密码。
      成功登录后,您将会重定向到 Integrated Analytics System Web 控制台主页。
      切记: 这是针对用户帐户的 Web 控制台主页。管理员使用 admin 进行登录以执行管理任务。
    2. 单击左上角的 Web 控制台菜单,然后单击开发分析条目。
      这将打开“开发分析和机器学习应用程序”页面。
    3. 单击启动 DSX 按钮。
    这将打开“Data Science Experience 登录”页面。
  • 从 Web 浏览器启动 DSX:
    1. 在浏览器地址字段中,输入 IIAS 的 URL,但将端口指定为 8444。
      例如:
      https://9.1.2.3:8444
    2. 登录 DSX。

首次登录 DSX

Integrated Analytics System 上的 DSX 需要与 Integrated Analytics System 登录无关的凭证(用户标识和密码)。

过程

  • 如果管理员已分配 DSX 用户标识和密码给您,请立即输入以启动 DSX。
  • 如果您还没有自己的 DSX 用户标识,您可尝试使用缺省 DSX 用户标识和密码(分别为 adminpassword)进行登录。如果您发现 admin 标识的密码已更改,请与系统管理员联系以获取帮助。

结果

成功登录后,您会看到“DSX 社区”页面。

在 DSX 中创建您自己的用户帐户

最好使您的工作与系统上其他人的工作分离,因此,请使用 IBM Data Platform Manager 来创建个人 DSX 帐户。如果您已有自己的 DSX 用户标识,您可跳过此任务。

过程

  1. 在 DSX 页面顶部,单击 IBM Data Science Experience Local 下拉列表,然后选择 IBM Data Platform Manager
    这将显示“仪表板”页面。
  2. 单击左上角的菜单并选择用户管理
  3. 在“用户管理”页面中,单击添加用户
  4. 在“添加用户”窗口中,输入所请求的信息,然后单击添加
    限制: “用户名”值在 DSX 实例中必须是唯一的,因此,如果您遇到错误,请尝试另一个名称。
    单击添加按钮后,您会收到一条消息,指出已创建用户标识。
    要点: 请复制该消息中提供的临时密码,您稍后需要使用该密码。(如有需要,您稍后可以编辑 DSX 用户帐户以更改密码。)
  5. 您需要从缺省的 DSX 管理员帐户注销,以便登录新的 DSX 帐户。单击页面右上角的圆形 A,并在下拉列表中选择注销
    这是 DSX 帐户菜单中的注销选项。
    这将再次打开 DSX 登录页面。请输入您的新用户标识和临时密码。

结果

成功登录后,将会再次打开“DSX 社区”页面,但这次您是以自己的帐户登录。

运行样本分析配置页

过程

  1. 从“DSX 社区”页面下载样本配置页:
    1. 在“社区”页面上,单击标签为 Use Spark for Python to load data and run... 的样本配置页。
    2. 在页面右上角,单击下载图标:
      “下载”图标
      这将打开“下载”窗口。
    3. 将配置页文件保存到您选择的位置。
  2. 创建项目:
    1. 单击页面左上角的主 Web 控制台下拉菜单,并选择我的项目。这将打开“我的项目”页面。
      由于您还没有项目,所以页面显示以下消息:
      You currently have no projects. Let's get going.
    2. 单击创建项目
      这将打开“新建项目”页面。
    3. 请为项目提供名称,例如 Project 1,然后单击创建
  3. 将样本配置页添加到项目:
    1. 这将显示新项目的概述选项卡。单击页面上“配置页”部分右侧的添加配置页
      提示: 单击添加配置页时,请使用相应的浏览器手势在新浏览器选项卡中打开链接。这允许您同时打开多个配置页。
    2. 创建配置页页面中,单击来自文件选项卡。
    3. 在“名称”字段中输入配置页名称。可以使用全名 Use Spark for Python to load data and run SQL queries 或短名称,例如 Notebook1
    4. 单击浏览。在文件对话框中,找到并选择已下载的配置页 (.ipynb) 文件。
    5. 单击“创建配置页”页面右下角的创建配置页
      这应该会打开该配置页,并启动 Python2 运行时服务。
  4. 通过单击运行单元格并选中下方单元格按钮依次执行每个单元格,运行样本配置页。

结果

该配置页会演示如何使用 Python 与 DSX 中内置的 Spark 服务进行交互。这个独立示例使用一个简单的汽车数据集,显示如何使用 Spark 执行基本分析操作。它会显示如何创建 Spark DataFrame,对该 DataFrame 执行 Spark 功能,以及如何对 DataFrame 运行 SQL 表达式。操作结果以表格形式显示,例如:
示例:样本配置页单元格输出