IBM Cloud Pak® for Data 4.6 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告。
在 IBM Cloud Pak for Data 4.6 版本支持结束之前,升级到 IBM Software Hub 5.1 版本。 更多信息,请参阅 IBM Software Hub 版本 5.1 文档中的升级 IBM Software Hub。
数据装入支持
单击查找和添加数据图标 (
) 并在笔记本侧边栏中选择资产时, Insert to code 功能可用于 Jupyter 笔记本中的项目数据资产。 资产类型可以是文件或数据库连接。
通过在 Notebook 中的空代码单元格中单击,然后单击资产名称下方的 插入到代码 链接,可以选择:
插入数据源访问凭证。 此功能可用于数据资产,连接和已连接的数据资产。 通过凭证,您可以编写自己的代码以访问连接或已连接的数据资产,并将数据装入到 Notebook 中您选择的数据结构中。
如果凭证选项不可用于您上载到项目的数据资产,那么可以在
/project_data/data_asset/上的已安装目录中访问这些资产。生成要添加到 Notebook 单元格的代码。 插入的代码可以让您轻松快捷地开始使用数据集或连接。 对于生产系统,您应仔细复查插入的代码,确定是否应编写自己的代码来更好地满足您的需求和性能需求。
在将数据加载到数据结构时,生成代码的功能使用基于 Apache Arrow Flight 的 Flight service 与数据库连接或已连接的数据资产(通过连接可访问的数据)进行通信。 这样就不需要使用 ODBC 或 JDBC 驱动程序来装入先前
Insert to code选项中使用的数据。 尽管您仍可以使用旧的Insert to code选项将数据装入到数据结构中,但不推荐使用这些选项并将其标记为此类选项。运行该代码单元格时,就会访问该数据,并将其装入到选定的数据结构中。
注: 如果仍使用旧
Insert to code函数,那么在下列情况下将禁用Insert to code函数:- 连接使用安全网关链路
- 连接凭证存储在保险库文件中
而是使用利用 Flight service的
Insert to code函数。
下表显示了哪些数据源连接 (文件类型和数据库连接) 支持生成代码的选项。 用于生成代码的 Insert to code 函数选项因数据源, Notebook 编码语言和 Notebook 运行时计算而异。
受支持的文件类型
| 数据源 | Notebook 编码语言 | 计算引擎类型 | 提供的装入数据支持 |
|---|---|---|---|
| -CSV/定界文件 -JSON 文件 -Excel 文件 (.xls , .xlsx 和 .XLSM) -SAS 文件 |
|||
| Python | Anaconda Python 分发版 | 将数据装入到 pandasDataFrame 中 | |
| 使用 Spark | 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中 | ||
| 使用 Hadoop | 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中 | ||
| R | Anaconda R 分发版 | 将数据装入到 R 数据框中 | |
| 使用 Spark | 将数据装入到 R 数据框和 sparkSessionDataFrame 中 | ||
| 使用 Hadoop | 将数据装入到 R 数据框和 sparkSessionDataFrame 中 | ||
| Scala | 使用 Spark | 将数据装入到 sparkSessionDataFrame 中 | |
| 使用 Hadoop | 将数据装入到 sparkSessionDataFrame 中 |
受支持的数据库连接
列出的数据库连接都使用 Flight service 在将数据装入数据结构时与数据库连接或已连接的数据资产 (可通过连接访问的数据) 进行通信。 如果旧 Insert to code 函数支持连接,那么用于装入数据的选项将标记为不推荐使用。
| 数据库源 | Notebook 编码语言 | 计算引擎类型 | 提供的装入数据支持 |
|---|---|---|---|
| - Watson Query - IBM Cloud Databases for PostgreSQL - IBM Cloud 对象存储 - IBM Db2 - IBM Db2 Big SQL - IBM DB2 事件存储 - IBM DB2 for i - IBM DB2 for z/OS - IBM DB2 托管 - IBM Informix - IBM DB2 云上 - IBM Db2 Warehouse - Microsoft SQL Server - Netezza Performance Server - Oracle - PostgreSQL |
|||
| Python | Anaconda Python 分发版 | 将数据装入到 pandasDataFrame 中 | |
| 使用 Spark | 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中 | ||
| 使用 Hadoop | 将数据装入到 pandasDataFrame、ibmdbpy、sparkSessionDataFrame 和 sqlContext 中 | ||
| R | Anaconda R 分发版 | 将数据装入到 R 数据框中 | |
| 使用 Spark | 将数据装入到 R 数据框和 sparkSessionDataFrame 中 | ||
| 使用 Hadoop | 将数据装入到 R 数据框、ibmdbr、sparkSessionDataFrame 和 sqlContext 中 | ||
| Scala | 使用 Spark | 将数据装入到 sparkSessionDataFrame 中 | |
| 使用 Hadoop | 将数据装入到 sparkSessionDataFrame 和 sqlContext 中 | ||
| Python | Anaconda Python 分发版 | 将数据装入到 pandasDataFrame 中 | |
| 使用 Spark | 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中 | ||
| 使用 Hadoop | 将数据装入到 pandasDataFrame、ibmdbpy、sparkSessionDataFrame 和 sqlContext 中 | ||
| R | Anaconda R 分发版 | 将数据装入到 R 数据框中 | |
| 使用 Spark | 将数据装入到 R 数据框和 sparkSessionDataFrame 中 | ||
| 使用 Hadoop | 将数据装入到 R 数据框、ibmdbr、sparkSessionDataFrame 和 sqlContext 中 | ||
| Scala | 使用 Spark | 无数据装入支持 | |
| 使用 Hadoop | 无数据装入支持 | ||
| - Amazon Redshift - Amazon RDS for MySQL - Amazon S3 - Apache Casandra - Apache Derby - Apache HDFS - IBM Cloud Compose for MySQL - Data Virtualization Manager for z/OS - IBM Cloud Databases for DataStax - IBM Cloud Databases for MongoDB - Google Cloud Storage - HDFS via Execution Engine for Hadoop - Hive via Executuion Engine for Hadoop - HTTP - IBM Cognos Analytics - Looker - Microsoft Azure Cosmos DB - Microsoft Azure Data Lake Store - Microsoft Azure File Storage - MinIO - MongoDB - MySQL - Salesforce.com - SAP HANA - SAP OData - Snowflake - 存储卷(前身为挂载卷) - Teradata - SingleStoreDB |
|||
| Python | Anaconda Python 分发版 | 将数据装入到 pandasDataFrame 中 | |
| 使用 Spark | 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中 | ||
| 使用 Hadoop | 无数据装入支持 | ||
| R | Anaconda R 分发版 | 将数据装入到 R 数据框中 | |
| 使用 Spark | 将数据装入到 R 数据框和 sparkSessionDataFrame 中 | ||
| 使用 Hadoop | 无数据装入支持 | ||
| Scala | 使用 Spark | 将数据装入到 sparkSessionDataFrame 中 | |
| 使用 Hadoop | 无数据装入支持 |
父主题: 在 Notebook 中装入和访问数据