什么是现代数据堆栈?

水平和垂直方向堆叠的各种书籍

作者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

什么是现代数据堆栈?

现代数据堆栈 (MDS) 是指基于云的集成工具和技术,用于收集、摄取存储清理转换、分析和治理数据。顾名思义,数据堆栈(或“数据平台”)为组织提供保护数据质量和挖掘信息价值所需的工具。

传统的旧版数据堆栈 (LDS) 依赖于严格的本地基础设施,而这些基础设施在可扩展性、灵活性和实时处理方面存在困难。相比之下,MDS 提供云原生的模块化解决方案,旨在简化自动化、优化成本并加速洞察分析。也许最值得注意的是,MDS 可增强当今许多公司所依赖的自助服务分析人工智能 (AI) 应用的能力。

数据平台是现代软件开发的支柱,它提供一系列工具和框架网络,以高效构建和管理应用程序。将 MDS 视为数字化运营的装配线 – 每个组件都在数据的收集到分析的无缝移动过程中发挥作用。通过自动化和扩展工作流,MDS 确保组织能够精确地处理、存储和使用数据,从而推动做出更好的决策和实现创新。

MDS 的主要功能包括:

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

现代数据堆栈为何重要?

2012 年至 2016 年间,数据工作流的重大转变重塑了组织存储和处理数据的方式。Snowflake、Google BigQuery 和 Amazon Redshift 等基于云的平台普及了云数据仓库,且具备前所未有的可扩展性、计算能力和效率。

同时,组织从传统的提取、转换、加载 (ETL) 工作流(在存储之前进行数据转换)转向提取、加载、转换 (ELT),即先存储数据,然后再处理数据。这种方法通过使用连接器或扩展来简化数据移动,从而提高了灵活性,并使实时洞察分析更易于获得。

在此期间,Fivetran 和 Airflow 等工具可自动摄取数据,而 Tableau、Power BI 和 Looker 等平台彻底改变了 BI。反向 ETL 增强了数据流,将洞察分析从仓库推向客户关系管理系统 (CRM) 等运营系统,从而改善自动化、决策和个性化。这些创新为 MDS 奠定了基础,实现了更具可扩展性、自动化程度更高和更加灵活的数据工作流。通过简化数据移动和集成,组织实现了更高的运营敏捷度。

旧版数据堆栈与现代数据堆栈

要了解 MDS 的意义,不妨将其与 LDS 进行比较:

主要区别一览

  • 基础架构:LDS 依赖于物理服务器;MDS 则是云原生。
  • 可扩展性:LDS 需要手动扩展;MDS 可根据需求动态扩展。
  • 整合:LDS 依赖于自定义工作流;MDS 则可自动摄取数据。
  • 灵活性:LDS 是一体式的;MDS 是模块化的,可实现无缝工具整合。
  • 分析:LDS 支持批量报告;MDS 提供实时洞察分析和交互式仪表板。
  • 成本:LDS 涉及大量前期投资;MDS 采用即用即付模式。

传统 LDS 建立在本地基础设施上,需要在硬件、维护和手动扩展方面进行大量投资。它们依赖于工作流,这意味着数据在存储之前必须进行清理和结构化处理。虽然 LDS 对于静态报告很有效,但它在实时处理、可扩展性和处理非结构化数据(如传感器日志、图像或音频)方面存在困难。

MDS 采用云原生模块化方法解决这些难题,使组织能够更高效地存储、处理和分析大量结构化和非结构化数据。ELT 工作流具备更高的灵活性,通常使用基于 Python 的脚本进行自动化和数据处理。

不同于需要昂贵的基础架构扩展程序的 LDS,MDS 具备按需可扩展性,其模块化特性意味着企业可以整合数据堆栈工具,而无需供应商锁定。最后,MDS 支持实时洞察分析以及 AI 驱动的分析和自动化,使整个组织的数据更易于访问和操作。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

现代数据堆栈的基本组件

MDS 由几个核心组件构成,包括:

  • 数据存储
  • 数据摄取
  • 数据转换
  • BI 和分析
  • 数据可观察性

数据存储

数据存储层是 MDS 的基础,为管理结构化和非结构化数据提供了一个集中的环境。组织可以根据成本、性能和可扩展性需求等因素从 IBM、AWS 或 Microsoft 等提供商的存储解决方案中进行选择。

数据存储类型:

  • 数据仓库来自多个来源的结构化数据聚合到单一的、针对分析 、AI 和 ML 进行优化的中央数据存储中。提供商包括 Snowflake、Google BigQuery 和 Amazon Redshift。
  • 数据湖:数据湖保存各种格式的原始、结构化和非结构化数据。它们允许组织存储大量数据,对于 AI、ML 和研究应用来说,通常可以达到 PB 级甚至更高。许多数据湖最初都是基于 Hadoop 构建而成,但现在大多数现代架构都使用云对象存储解决方案,例如 AWS S3 和 IBM® Cloud Object Storage (COS)
  • 数据湖仓:一种将数据湖的可扩展性与数据仓库的结构化查询功能相结合的混合方法。换句话说,这个档案库的容量看似无限,却有着极其精确的索引。湖仓可存储结构化、半结构化和非结构化数据,同时支持 BI、分析和 ML 工作量。

数据摄取

数据摄取是指从各种来源收集数据并将其移动到集中式存储系统中进行处理和分析的过程。数据管道的有效性取决于大数据的摄取和集成程度。数据工程师发挥着至关重要的作用,因为此阶段的错误可能导致下游的分析和 AI 模型出现问题。

数据摄取的类型:

  • 批处理:这是最常见的摄取方法,批处理会以组(或成批)收集数据,并按照计划的时间间隔将其发送到存储系统。这种方法具有成本效益,在不需要实时更新时是理想的选择。
  • 实时处理:这种方法也称为“流处理”,在数据生成时会持续摄取和处理数据。它对 AI 应用、欺诈检测和实时分析至关重要。但是,它需要更高的计算资源。

Apache Airflow、Stitch 和 Fivetran 等自动化摄取工具可帮助组织在系统之间无缝移动数据,减少人工工作并提高数据集成效率。

数据转换

原始数据在摄取时通常是不一致或非结构化的,因此很难以其原生格式进行分析。数据转换层可确保数据的清洁和结构化,并针对分析、报告和 ML 等任务进行优化。

常见的数据转换任务:

  • 数据清理:移除错误、空值和重复项。
  • 规范:实现数据格式标准化,以保持一致性。
  • 聚合:汇总用于报告的大型数据集
  • 合并:将来自多个来源的数据组合成统一的数据集。

过去,数据转换遵循 ETL 工作流。然而,随着基于云的存储解决方案的兴起,大多数组织都开始使用 ELT 流程。dbt 和 Dataform 等数据转换工具可自动执行工作流,并确保数据的准确性、一致性和可分析性。

BI 和分析

BI 和分析层通过数据分析、可视化、趋势分析、结构化查询语言 (SQL) 查询和 AI 驱动的自动化将原始数据转换为切实可行的洞察分析。Tableau、Power BI 和 Looker 等工具提供交互式仪表板和实时数据分析,帮助组织跟踪绩效和完善战略。

除了数据可视化,人工智能驱动的分析和数据科学还能通过检测异常、预测趋势和自动执行工作流来加强决策,而所有这些都依赖于强大的数据管理实践。无论是用于客户行为分析、财务预测还是供应链优化,BI 工具都能确保企业将数据用于战略和运营环境。

数据可观察性

数据可观察性通过持续监控数据健康状况来确保数据质量、可用性和可靠性。该层可帮助数据团队检测损坏的管道、丢失的记录或缓慢的处理,以免这些问题影响分析。

Monte Carlo 和 Datadog 等可观察性工具可提供数据流洞察分析,使工程师能够实时诊断和增强工作流。通过主动解决问题,组织可以维护数据完整性并改进数据驱动型决策。强大的可观察性实践可支撑结构良好的数据模型,并确保利益相关者在整个数据生命周期中都能信任洞察分析。

其他现代数据堆栈层

除了五个基本层之外,MDS 通常还包含其他能增强可访问性和功能性的组件。这些组件包括:

  • 数据发现:数据发现可帮助组织发现和评估隐藏或孤立的数据源,确保数据团队能够提取有价值的信息并进行有效运用。
  • 数据治理:制定政策和保障措施以确保安全性、监管合规性和数据一致性。通过管理数据流和实施结构化数据模型,治理可维持高效的工作流,并有助于执行实时合规性监控
  • 数据编目:团队可使用元数据创建跨数据仓库、数据湖和其他存储环境的结构化数据资产库存。维护良好的目录可支持整个数据生命周期,并允许利益相关者快速访问和使用重要信息。
  • ML 和 AI:一些数据平台整合了 ML 和 AI,以完善数据处理、改进预测建模、自动获取洞察分析和加强异常检测。ML 模型还可以通过识别效率低下问题,并为数据团队提出实时改进建议来优化工作流。

现代数据堆栈用例

企业可以部署自己的 MDS 来改进人工智能驱动的个性化、客户洞察分析、物流和欺诈检测。

人工智能驱动的个性化

MDS 允许企业提供数据驱动的 AI 个性化。这种个性化有助于优化各个领域的用户体验,例如电子商务、流平台和软件即服务 (SaaS) 应用程序。通过使用 Apache Spark 进行实时处理以及使用 Databricks 进行可扩展分析,数据科学家可以分析客户偏好和参与度,以改善推荐引擎内容交付网络

客户洞察分析和销售优化

公司使用 MDS 和 SaaS 分析工具跟踪客户行为并改进营销战略。Snowflake 和 Looker 等云平台可为购买模式和定价优化等类别生成实时仪表板,所有这些都可以帮助企业提高转化率和保留率。

物流和供应链优化

通过整合用于数据摄取的 Fivetran 和用于转换的 dbt,企业可以实时监控库存并预测中断情况。这一整合可以加快零售、制造和运输等行业的配送速度、降低成本并改善需求规划

欺诈侦查和风险管理

金融机构和电子商务平台使用 MDS 来检测欺诈并预防数据泄露。通过使用 ML 模型、应用程序编程接口 (API) 和 Amazon Redshift 等服务,组织可以识别可疑交易并自动进行欺诈检测。

哪些企业需要现代数据堆栈?

依赖实时决策、自动化和 AI 驱动型洞察分析的企业可使用 MDS 来增强数据可访问性并简化运营。科技、金融、医疗保健、电子商务和物流等行业经常使用 MDS 来整合大规模数据源,提高分析能力并促成更高效的决策和编排。

然而,在一个数据几乎影响到商业运营各个方面的世界里,真正的问题不是哪些行业从 MDS 中获益,而是它如何帮助组织提高效率和适应性。随着 AI 采用、开源工具和实时数据处理的不断发展,MDS 正在成为组织实现数据架构现代化的更常见方法。

相关解决方案
IBM StreamSets

通过直观的图形界面创建和管理智能流数据管道,促进跨混合和多云环境的无缝数据集成。

深入了解流媒体集
Data Fabric 架构解决方案

设计数据架构,以加速生成式 AI 的数据准备,并为数据团队释放 无与伦比的生产力。

深入了解 Data Fabric 架构解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

了解 IBM DataStage,这是一款 ETL(提取、转换、加载)工具,为设计、开发和部署数据管道提供可视化界面。它可作为 IBM Cloud 上的托管 SaaS、自托管以及 IBM Cloud Pak for Data 的附加组件提供。

探索 DataStage 深入了解分析服务