重要说明:

IBM Cloud Pak® for Data 4.6 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告

在 IBM Cloud Pak for Data 4.6 版本支持结束之前,升级到 IBM Software Hub 5.1 版本。 更多信息,请参阅 IBM Software Hub 版本 5.1 文档中的升级 IBM Software Hub。

数据装入支持

单击查找和添加数据图标 (显示 "查找数据" 图标) 并在笔记本侧边栏中选择资产时, Insert to code 功能可用于 Jupyter 笔记本中的项目数据资产。 资产类型可以是文件或数据库连接。

通过在 Notebook 中的空代码单元格中单击,然后单击资产名称下方的 插入到代码 链接,可以选择:

  • 插入数据源访问凭证。 此功能可用于数据资产,连接和已连接的数据资产。 通过凭证,您可以编写自己的代码以访问连接或已连接的数据资产,并将数据装入到 Notebook 中您选择的数据结构中。

    如果凭证选项不可用于您上载到项目的数据资产,那么可以在 /project_data/data_asset/上的已安装目录中访问这些资产。

  • 生成要添加到 Notebook 单元格的代码。 插入的代码可以让您轻松快捷地开始使用数据集或连接。 对于生产系统,您应仔细复查插入的代码,确定是否应编写自己的代码来更好地满足您的需求和性能需求。

    在将数据加载到数据结构时,生成代码的功能使用基于 Apache Arrow Flight 的 Flight service 与数据库连接或已连接的数据资产(通过连接可访问的数据)进行通信。 这样就不需要使用 ODBC 或 JDBC 驱动程序来装入先前 Insert to code 选项中使用的数据。 尽管您仍可以使用旧的 Insert to code 选项将数据装入到数据结构中,但不推荐使用这些选项并将其标记为此类选项。

    运行该代码单元格时,就会访问该数据,并将其装入到选定的数据结构中。

    : 如果仍使用旧 Insert to code 函数,那么在下列情况下将禁用 Insert to code 函数:

    • 连接使用安全网关链路
    • 连接凭证存储在保险库文件中

    而是使用利用 Flight service的 Insert to code 函数。

 

下表显示了哪些数据源连接 (文件类型和数据库连接) 支持生成代码的选项。 用于生成代码的 Insert to code 函数选项因数据源, Notebook 编码语言和 Notebook 运行时计算而异。

受支持的文件类型

 

数据源 Notebook 编码语言 计算引擎类型 提供的装入数据支持
-CSV/定界文件
-JSON 文件
-Excel 文件 (.xls , .xlsx 和 .XLSM)
-SAS 文件
Python Anaconda Python 分发版 将数据装入到 pandasDataFrame 中
使用 Spark 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中
使用 Hadoop 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中
R Anaconda R 分发版 将数据装入到 R 数据框中
使用 Spark 将数据装入到 R 数据框和 sparkSessionDataFrame 中
使用 Hadoop 将数据装入到 R 数据框和 sparkSessionDataFrame 中
Scala 使用 Spark 将数据装入到 sparkSessionDataFrame 中
使用 Hadoop 将数据装入到 sparkSessionDataFrame 中

 

受支持的数据库连接

列出的数据库连接都使用 Flight service 在将数据装入数据结构时与数据库连接或已连接的数据资产 (可通过连接访问的数据) 进行通信。 如果旧 Insert to code 函数支持连接,那么用于装入数据的选项将标记为不推荐使用。

数据库源 Notebook 编码语言 计算引擎类型 提供的装入数据支持
- Watson Query
- IBM Cloud Databases for PostgreSQL
- IBM Cloud 对象存储
- IBM Db2
- IBM Db2 Big SQL
- IBM DB2 事件存储
- IBM DB2 for i
- IBM DB2 for z/OS
- IBM DB2 托管
- IBM Informix
- IBM DB2 云上
- IBM Db2 Warehouse
- Microsoft SQL Server
- Netezza Performance Server
- Oracle
- PostgreSQL
Python Anaconda Python 分发版 将数据装入到 pandasDataFrame 中
使用 Spark 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中
使用 Hadoop 将数据装入到 pandasDataFrame、ibmdbpy、sparkSessionDataFrame 和 sqlContext 中
R Anaconda R 分发版 将数据装入到 R 数据框中
使用 Spark 将数据装入到 R 数据框和 sparkSessionDataFrame 中
使用 Hadoop 将数据装入到 R 数据框、ibmdbr、sparkSessionDataFrame 和 sqlContext 中
Scala 使用 Spark 将数据装入到 sparkSessionDataFrame 中
使用 Hadoop 将数据装入到 sparkSessionDataFrame 和 sqlContext 中
Python Anaconda Python 分发版 将数据装入到 pandasDataFrame 中
使用 Spark 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中
使用 Hadoop 将数据装入到 pandasDataFrame、ibmdbpy、sparkSessionDataFrame 和 sqlContext 中
R Anaconda R 分发版 将数据装入到 R 数据框中
使用 Spark 将数据装入到 R 数据框和 sparkSessionDataFrame 中
使用 Hadoop 将数据装入到 R 数据框、ibmdbr、sparkSessionDataFrame 和 sqlContext 中
Scala 使用 Spark 无数据装入支持
使用 Hadoop 无数据装入支持
- Amazon Redshift
- Amazon RDS for MySQL
- Amazon S3
- Apache Casandra
- Apache Derby
- Apache HDFS
- IBM Cloud Compose for MySQL
- Data Virtualization Manager for z/OS
- IBM Cloud Databases for DataStax
- IBM Cloud Databases for MongoDB
- Google Cloud Storage
- HDFS via Execution Engine for Hadoop
- Hive via Executuion Engine for Hadoop
- HTTP
- IBM Cognos Analytics
- Looker
- Microsoft Azure Cosmos DB
- Microsoft Azure Data Lake Store
- Microsoft Azure File Storage
- MinIO
- MongoDB
- MySQL
- Salesforce.com
- SAP HANA
- SAP OData
- Snowflake
- 存储卷(前身为挂载卷)
- Teradata
- SingleStoreDB
Python Anaconda Python 分发版 将数据装入到 pandasDataFrame 中
使用 Spark 将数据装入到 pandasDataFrame 和 sparkSessionDataFrame 中
使用 Hadoop 无数据装入支持
R Anaconda R 分发版 将数据装入到 R 数据框中
使用 Spark 将数据装入到 R 数据框和 sparkSessionDataFrame 中
使用 Hadoop 无数据装入支持
Scala 使用 Spark 将数据装入到 sparkSessionDataFrame 中
使用 Hadoop 无数据装入支持

父主题: 在 Notebook 中装入和访问数据