使用 Spark 扩展分析 (由 Apache Spark提供支持的Analytics Engine )

您可以使用由 Apache Spark 提供技术支持的 Analytics Engine 作为计算引擎来运行分析和机器学习作业。

IBM Analytics Enginepowered byApache Spark为使用Apache Spark提供托管服务,并提供自动扩展、资源配额和队列等附加功能。 您可以使用 Jupyter 笔记本和脚本(Python和 R)交互式运行 Spark 应用程序。 也可以使用笔记本、部署空间中的作业或 Spark 服务实例来运行应用程序。 由Apache Spark支持的IBM Analytics Engine可创建按需 Spark 集群,并使用 Spark 应用程序、Spark 内核和 Spark 实验室等产品运行工作负载。

服务默认情况下Apache Spark支持的IBM Analytics Engine服务不可用。 管理员必须在IBM Cloud Pak for Data平台上安装此服务。 要确定是否已安装该服务,请打开 "服务" 目录并检查是否已启用该服务。

每次提交作业时,都会为该作业创建一个专用 Spark 集群。 您可以指定 Spark 驱动程序的大小,执行程序的大小以及作业的执行程序数。 这使您能够实现可预测的一致性能。

当作业完成时,将自动清除集群,以便资源可用于其他作业。 该服务还包含使您能够分析 Spark 应用程序性能和调试问题的接口。

在IBM Cloud Pak for Data 中,您可以通过两种方式运行 Spark 工作负载:

  • 在 Watson Studio 的项目中的 Spark 环境中运行的 Notebook 中
  • 在Watson Studio 之外,在由Apache SparkSpark 实例提供支持的IBM Analytics Engine中使用 Spark 作业 API

项目中的 Spark 环境

如果安装了Watson Studio服务,IBM Analytics Enginepowered byApache Spark服务会自动为项目添加一组默认的 Spark 环境模板。 您还可以在项目中创建定制 Spark 环境模板。

您可以在项目的 管理 选项卡上的 " 环境 " 页面上的 模板 下查看 Spark 环境模板。

有关更多详细信息,请参阅 Spark 环境

Spark API

您可以使用 Spark 作业 API 在Apache Spark支持的IBM Analytics Engine中直接运行 Spark 工作负载。

您可以使用 Spark 作业 API 运行以下类型的工作负载:

  • 运行 Spark SQL 的 Spark 应用程序
  • 数据转换作业
  • 数据科学作业
  • 机器学习作业

请参阅 Spark 应用程序入门

了解更多

父主题: 分析数据和构建模型