重要说明:

IBM Cloud Pak® for Data 4.8 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告
在 版本支持结束之前,升级到 版本。 IBM Cloud Pak for Data 4.8 IBM Software Hub 5.1 有关更多信息,请参阅从 IBM Cloud Pak for Data 版本 4.8 升级到 IBM Software Hub 版本 5.1

在 Notebook 中装入和访问数据 (Watson Studio)

您可以通过从本地文件,免费数据集或数据源连接访问数据,将数据集成到 Notebook 中。 您可以将数据加载到笔记本中的数据结构或容器中,例如 pandas.DataFrame, numpy.array、Spark RDD 或 Spark DataFrame。

要在 Notebook 中处理数据,可以在以下选项之间进行选择:

向 Notebook 添加数据的建议方法
选项 建议的方法 要求 详细信息
在本地系统上添加文件中的数据 添加用于装入数据的 代码片段 该文件必须作为项目中的资产存在 将文件从本地系统添加到项目 ,然后 使用代码片段来装入数据
从数据源连接装入数据 添加用于装入数据的 代码片段 连接必须作为资产存在于项目中 向项目添加连接 ,然后 添加用于从数据源连接装入数据的代码片段
以编程方式访问项目资产和元数据 使用 ibm-watson-studio-lib 库函数 数据源必须作为项目资产存在 使用 ibm-watson-studio-lib 库与数据资产进行交互
生成您自己的代码以读取或写入数据 使用 Flight 服务和 Apache Arrow Flight 协议读取和写入项目中的数据资产 数据资产必须存在于项目中 使用 Python Notebook 中的 Flight serviceR 笔记本中的 Flight service 访问数据源
创建和使用功能部件存储数据 使用 assetframe-lib 库函数。 数据资产必须存在于项目中 使用 Python 的 assetframe-lib 库来创建和使用功能部件存储数据
使用 API 函数或操作系统命令访问数据 例如,使用 wget 不适用 使用 API 函数或操作系统命令访问数据
重要信息: 请确保启动 Notebook 的环境中有足够的内存来存储装入到 Notebook 的数据。 环境中的内存必须比装入到 Notebook 中的数据的总大小大得多。 某些数据框架 (如 pandas) 可以将数据的多个副本保存在内存中。

从本地系统添加文件

要使用 Jupyterlab 笔记本编辑器将文件从本地系统添加到项目:

  1. 以编辑方式打开 Notebook。
  2. 从工具栏中单击 " 上传资产到项目 "图标 (显示 "将资产上载到项目" 图标) 并添加文件。
提示: 您还可以将文件拖到 Notebook 侧边栏中。

从文件装入数据

先决条件 该文件必须作为资产存在于项目中。 有关详细信息,请参阅 从本地系统添加文件

要将数据从项目文件装入到 Notebook ,请执行以下操作:

  1. 以编辑方式打开 Notebook。
  2. 单击代码片段图标 ("代码片段" 图标 ),点击读取数据 ,然后从您的项目中选择数据文件。 如果要更改选择,请使用 编辑 图标。
  3. 装入方式 下拉列表中,选择您首选的装入选项。
  4. 单击 Notebook 中的空代码单元格,然后单击 将代码插入单元格 以插入生成的代码。 或者,单击以将生成的代码复制到剪贴板,然后将代码粘贴到 Notebook 中。

生成的代码充当开始使用数据集的快速入门。 对于生产系统,请仔细查看插入的代码,以确定是否编写自己的代码以更好地满足您的需求。

要了解为哪些 Notebook 语言和数据格式生成了哪些数据结构,请参阅 数据装入支持

从数据源连接装入数据

先决条件 您必须先创建或添加与项目的连接,然后才能从 IBM 数据服务或外部数据源装入数据。 请参阅添加项目连接

对于 Planning Analytics 连接,请参阅添加来自 Planning Analytics 连接的数据

要将来自现有数据源连接的数据装入到 Notebook 中的数据结构中,请完成下列步骤:

  1. 以编辑方式打开 Notebook。
  2. 单击代码片段图标 ("代码片段" 图标),单击读取数据 ,然后从项目中选择数据源连接。
  3. 选择模式,然后选择表。 如果要更改选择,请使用 编辑 图标。
  4. 选择装入选项。
  5. 单击 Notebook 中的空代码单元格,然后将代码插入到该单元格中。 或者,单击以将生成的代码复制到剪贴板,然后将代码粘贴到 Notebook 中。
  6. 如有必要,请输入您的个人凭据,以获取标有密钥图标 (具有个人凭证的连接的密钥符号) 的锁定数据连接。这是一个一次性步骤,可为您永久解锁连接。 解锁该连接后,将不再显示此密钥图标。 有关更多信息,请参阅 向项目添加连接

生成的代码用于快速开始使用连接。 对于生产系统,请仔细查看插入的代码,以确定是否编写自己的代码以更好地满足您的需求。

要了解为哪些 Notebook 语言和数据格式生成了哪些数据结构,请参阅 数据装入支持

使用 API 函数或操作系统命令来访问数据

您可以使用笔记本中的 API 函数或操作系统命令来访问数据,例如使用 wget 命令通过 HTTP、 HTTPS 或 FTP 协议访问数据。

有关 API 的参考信息,请参阅数据和人工智能通用核心 API

父主题: Notebook 和脚本