什么是特征存储?

特征存储,释义

特征存储是一种数据系统,它可以管理、存储并提供机器学习 (ML) 模型所需的特征。它提供了一个集中式特征数据库,确保特征值在模型训练和生产环境中保持定义与使用标准统一。

在机器学习中,特征是源自原始数据的变量或属性,用作模型生成预测的输入。它们体现着数据中行为、背景或状态的可衡量维度,例如购买频率或地理位置。

例如,在欺诈检测中,模型依赖经过整理的信号而非原始数据。特征可能包括过去一周的交易次数或近期购买地点,这类内容用于捕捉可能存在欺诈行为的规律。

特征(通常称为 ML 特征)由多个数据源生成,并整理为数据集,为数据科学和机器学习工作流程提供支撑。随后,我们使用这些特征来训练模型、评估指标并将模型部署至生产系统中。

ML 中特征存储的用途是什么?

机器学习模型基于数据的数值形式运行。每个数据点都会表示为一组特征值,通常采用向量形式,其中每个维度对应一项特定属性。有些结构化数据类型(如会计信息)本身就是数值型,而文本、图像、音频等非结构化数据,必须先转换为结构化数值形式,才能被模型调用。

转换非结构化数据的其中一种方式是特征工程,即借助聚合、过滤、编码等技术,将原始数据转化为结构化、可被机器读取的输入内容。特征工程还包含特征提取算法从原始数据中提炼有效信息)和特征选择(筛选关联性最强的变量)。

由于机器学习工作流涵盖模型训练推理环节,特征需要结合历史数据以及生产环境中的新增数据进行计算。保持数据一致性需要数据管道、特征管道与数据工程系统相互配合,而特征存储正是为解决这一难题而设计。

在实际应用中,特征存储覆盖机器学习生命周期的各个阶段:

  • 特征工程与开发:为定义新特征搭建规范环境,便于团队共享、复用特征,避免重复开发。
  • 模型训练:提供历史特征数据与训练数据,确保模型依托可靠数据集完成训练。
  • 推理与服务:通过在线特征存储系统实时输出特征值,实现低延迟预测。
  • 监控与迭代:跟踪各项指标、检测数据偏差(即数据分布不均),并在工作流中监测特征质量。

特征存储的重要性

机器学习模型是当下众多人工智能 (AI) 系统的基础,其性能直接取决于输入变量的质量。输入内容决定输出结果。

特征值决定模型如何解读训练数据中的规律,并将规律应用于新增数据。这种协同运作从两方面提升模型性能:规模化管理特征数据,同时保障训练与推理环节的数据统一。

特征数据规模化管理

随着机器学习系统不断扩容,特征数据的管理难度也持续增加。特征会在多个工作流程中生成并流转,相关工作通常由分布式环境下的数据工程团队和 ML 团队负责。

如果缺少集中式系统,就容易出现特征重复、定义不统一的问题。不同团队可能采用略有差异的逻辑计算同一特征,进而造成数据集和流程内部出现偏差。这类问题不仅加大特征复用难度,也会给模型开发带来风险。

保障训练与推理环节的数据统一

在模型训练阶段,工作人员基于历史数据计算特征,并整理为训练数据集。模型部署后,必须沿用相同的特征定义处理新增数据,并重新计算以支撑推理,该过程通常运行在实时或近乎实时的环境中。

即使特征计算方式存在细微差别,也会造成训练数据与生产输入不一致(通常称为训练-服务偏差),进而导致模型性能下降。

特征存储通过统一特征定义、规范特征转换规则,化解上述难题。特征仅需定义一次,存入共享系统后,便可通过应用程序编程接口 (API) 或软件开发套件 (SDK) 接口调用。该协同机制一般由特征注册表统筹,支持团队在各类流程、模型和用例中复用特征。

特征存储的工作原理

特征存储架构能够打通机器学习多个关键环节的数据流转,包括:

  • 摄取与转换
  • 存储层
  • 特征服务
  • 特征注册表与元数据
  • 流程编排与生命周期管理

摄取和转换

系统从多个数据源采集数据,并通过摄取管道完成初步处理。这类管道会执行数据与特征转换操作,将原始数据转为特征值。

特征计算包含多种形式:对存量数据进行批处理;通过流式管道实现实时更新;以及在推理阶段按需计算特征。这类转换操作通常在自动化工作流中,借助 Python、结构化查询语言 (SQL) 或其他工具实现。

存储层

特征存储采用由离线存储和在线存储组成的双存储架构。离线存储(即离线特征存储)负责留存历史特征数据,通过开放训练数据与数据集的访问权限,为模型训练提供支持。它通常搭建在数据仓库数据湖之上。

在线存储或在线特征存储可留存当前特征值,并在模型推理阶段支持低延迟查询。离线存储与在线存储相互分离,可兼顾各类工作负载下的可扩展性与运行性能。

特征服务

特征服务是向机器学习模型提供特征值的过程。API 或 SDK 层支持应用程序在不同环境中调取特征,确保特征定义保持统一。它还有助于减少训练-服务偏差,确保模型开展预测时能够获取最新特征值。

特征注册表和元数据

特征注册表是特征定义的集中式记录系统。它存储元数据数据沿袭信息与版本信息,可直观展示特征的构建方式及应用位置。依托这种可追溯性,工作人员能够更便捷地查找可复用特征、执行治理权限控制,并跟踪工作流中的依赖关系。

编排和生命周期管理

特征存储可以统筹编排整个特征生命周期内的管道与工作流。常见任务包括自动计算特征、管理历史特征数据的回填操作、定义变更后重新计算特征,以及识别重复或过期特征。因此,流程编排可保障特征管道在整个数据平台中稳定运行、灵活扩展。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

特征存储的核心能力

尽管实现方式各有不同,但多数特征存储都具备核心架构之外的通用能力,助力搭建可扩展且稳定的机器学习工作流。

特征转换

保障工作流内特征计算标准统一,让训练与推理阶段采用相同计算逻辑。

离线存储与在线存储

支持基于特征值开展历史分析与低延迟调取,适配批处理和流式处理场景。

特征服务

可在实时及高吞吐量用例中快速、稳定地调取特征值,支撑模型完成预测。

特征注册表

集中管理特征定义,提升跨团队、跨工作流的特征发现、版本控制与治理能力。

编排

自动执行特征管道的工作流与生命周期管理,保障系统稳定与可扩展性。

访问控制和安全

执行治理策略与权限规则,保护特征数据,降低数据泄露风险。

以上各项能力共同规范了机器学习工作流中的特征数据管理方式。同时也体现出特征存储在整体数据架构中的定位。

传统数据系统(如数据仓库和其他数据存储)主要用于在组织内部处理和移动数据。但这类数据无法直接应用于机器学习。

特征存储在此基础上,将特征数据整理为可供机器学习模型复用的输入内容,统一规范开发与生产阶段的特征定义、计算及调用方式。

特征存储的优势

特征存储具备多项实用优势,能够优化机器学习系统的开发与运维工作。

  • 提升模型开发效率:可复用的特征定义减少了新项目重复构建特征的工作量,让团队专注于模型设计而非数据准备。
  • 保障机器学习模型数据统一:标准化的特征管道让训练与推理阶段采用一致的特征计算方式,降低训练-服务偏差风险。
  • 加强团队间协作:集中存储的特征数据方便数据科学家、数据工程及 ML 团队共享特征,依托通用记录系统 (SOR) 开展工作。
  • 治理与可追溯性:特征存储为特征定义搭建规范的通用记录系统,便于掌握特征在不同模型中的定义与使用情况,同时统一执行管理标准。
  • 支持实时机器学习:特征存储依托在线系统实现特征值低延迟调取,可应用于超个性化推荐引擎等用例。
  • 可扩展、可复用工作流:自动化特征管道与流程编排可为机器学习运维 (MLOps) 提供支撑。这将帮助组织在不同团队与用例中拓展机器学习系统的应用范围。

特征存储借助优化存储层与 Redis 等键值系统实现高吞吐量特征调用,这类系统在现代数据平台中通常以托管式内存服务部署。该方式可保障模型高效调取最新特征值。

特征存储选型

特征存储的选型取决于组织的数据架构、基础设施以及机器学习技术成熟度。典型考量因素包括:

  • 与现有数据平台集成
  • 开源版本与托管版本
  • 架构需求与工作负载
  • 治理与信任

与现有数据平台的整合

特征存储需要与现有数据管道、数据仓库、数据湖及各类数据平台系统适配。然而,要将特征管道接入现有工作流,通常需要重构数据转换逻辑,并开展跨团队协作。

因此,组织通常首先评估特征存储如何与现有工具 (Snowflake、Databricks) 以及 AWS 服务 (SageMaker Feature Store) 整合。通常情况下,特征存储被整合为连接数据工程和模型部署的各类 MLOps 系统的一部分。1

开源和托管方案

特征存储的实现方式差异很大,组织不断权衡性能、可扩展性和运行复杂度。2Feast 等开源特征存储框架允许企业构建和管理自有特征管道与基础设施,而 Tecton 等平台则提供全托管、可直接投入生产的解决方案。

然而,部分组织选择搭建自研端到端机器学习平台 (例如,Uber Michelangelo),将特征存储功能纳入整体系统当中。最终,自研或选用特征存储的决策取决于内部专业能力与长期可扩展性要求。

架构要求和工作负载

架构需求起到核心作用。部分用例需要实时或低延迟的特征服务,其余用例则依托批处理或按需特征计算。随着数据体量增长,高吞吐量要求也对基础设施提出更高标准。

在保障离线与在线特征值保持一致的前提下,同时支撑历史数据处理与实时推理会变得复杂。相关研究表明,特征存储的设计通常由各类工作负载需求决定,同时也指出延迟、可扩展性和时间点准确性等问题。3

治理与信任

治理同样重要。特征存储基于共享特征数据运行,因此组织需要清晰掌握特征的定义、测试与使用方式。

特征数据在团队间共享时,组织必须执行管控措施防范数据泄露,同时保障特征计算保持统一。标准化治理框架可以保障特征管道的统一性、数据沿袭与合规性,4有助于维持机器学习系统的可靠性

作者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

  1. 深入了解数据管理解决方案
  2. 了解 watsonx.data
脚注

1 An Analysis of MLOps Architectures: A Systematic Mapping Study,arXiv,2024 年 6 月 28 日。

2 现代 ML 平台中特征存储架构的演变,《国际信息技术与管理信息系统杂志》(IJITMIS),2025 年 3 月至 4 月。

3 Conceptual Approaches to Organizing Feature Stores in High-Load ML Systems,International Journal of Computer (IJC),2026 年 2 月 2 日。

4 A Formal Model for Feature Store Architecture and Governance,International Journal of Computational and Experimental Science and Engineering,2025 年 12 月。