什么是时间序列模型?

作者

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

什么是时间序列模型?

时间序列模型是一种机器学习模型,可以分析连续的时间序列数据并预测未来的数值。时间序列数据集由按时间顺序排列的数据值组成,其中时间作为自变量。时间序列分析允许根据序列中之前的数值对未来的数据值进行预测

什么是时间序列建模?

时间序列建模是指利用机器学习算法和统计方法分析随时间变化的数据点。

时间序列数据集与其他数据集的不同之处在于,它们并非由独立、不相关的数据点组成。虽然许多数据集都是基于单个观测值,但时间序列数据集带有时间戳标签,并跟踪变量随时间的变化,从而在数据点之间建立依赖关系。依赖关系是数据点之间的关系,其中一个数据点的数值会影响另一个数据点的数值。

在单变量时间序列建模中,时间是唯一的自变量。所有其他变量都取决于先前的值。多变量时间序列建模引入了更多的自变量,例如天气状况或人口统计信息。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的《IBM 隐私声明》。

时间序列建模的关键概念

时间序列建模的诸多核心概念都涉及时序特征,即与时间相关或从时间维度衍生出的数据特性。这些概念包括:

  • 自相关性

  • 季节性

  • 平稳性

自相关性

自相关衡量时间序列中当前数值与历史数据过去数值的对应程度。自相关意味着时间序列的当前观测值与滞后观测值高度对应。自相关用于识别时间序列是否存在重复模式,并可指示季节性。

自相关可以是正相关,也可以是负相关。正自相关意味着高值导致较高的值,而低值导致较低的值。负自相关则相反:高值之后往往伴随低值,反之亦然。

季节性

季节性是时间序列数据的一种特征,指的是基于固定时间间隔出现的重复模式,例如季节变化。例如,电子商务平台可能在春季和夏季销售更多的太阳镜,在秋季和冬季销售更多的丝巾。家庭通常在白天用电量比夜间更高。

时间相关的季节性变化在使用预测模型进行未来数值预测时非常有用。图表和图形等数据可视化工具将季节性描述为重复波动,通常以正弦波的形式出现。

在时间序列数据分析过程中,分解过程会揭示数据中存在的任何季节性,以及趋势和噪声。趋势是指数据值的长期增加或减少,而噪声是指不遵循可预测模式的随机波动。噪声通常来源于误差和异常值。

平稳性

平稳时间序列具有静态统计属性,例如均值和方差。对于平稳性,数据点可以随季节性波动,但没有更大的趋势。由于气候变化导致气温上升,现代全球年度平均气温的时间序列是非平稳的。

平稳性对于大多数时间序列模型的有效运行是必需的。Dickey-Fuller 检验用于判断数据集是否为平稳序列。不平稳的时间序列数据集可以通过差分等技术进行转换,以消除趋势并分离其他模式,如季节性和自相关性。

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

时序模型

在应对时间序列预测挑战时,数据科学家可以从各种机器学习算法中进行选择。根据数据集的性质,有些方法比其他方法更合适。单步模型预测时间序列中的下一个数据点,而多步模型则生成多个时间序列预测。

时间序列模型类型包括:

  • 自回归积分滑动平均模型 (ARIMA)

  • 指数平滑法

  • 广义自回归条件异方差模型 (GARCH)

  • 长短期记忆 (LSTM)

Meta 的 开源 Prophet 和 Amazon 的 DeepAR 是另外两个专为时间序列建模而构建的 AI 模型。也可以将 线性回归模型改造用于时间序列预测任务。其他监督学习模型(如 XGBoost随机森林)可以应用于非线性时间序列数据。

自回归积分滑动平均模型 (ARIMA)

ARIMA 模型系列由众多模块化构建块模型组成,这些模型可以单独运行,也可以以各种组合方式运行。ARIMA 是一种根据过去事件预测未来值的统计模型,最适合显示季节性的平稳时间序列。它在处理单变量数据集方面表现出色,也可以适应多变量用例。

ARIMA 配置包括:

  • 自回归 (AR):自回归模型,记作 AR(p),基于随机项中变量的历史值预测未来值:随机项是指无法完全预测的项。参数 p 表示滞后阶数,即用于预测的数据点数量。p 值为 1 表示回溯到序列中的前一个观测值。

  • 移动平均 (MA):移动平均模型,记作 MA(q),基于过去的预测误差来预测未来值。参数 q 是预测中包含的误差数量。MA(1) 模型将包含一个过去的错误。

  • 差分 (I):积分模型通过加入差分项 (d) 使时间序列平稳。差分将数据值替换为当前值与过去值的差异,从而生成一个新的序列来表示数值的变化。参数 d 表示数据点被差分的次数。

  • 自回归移动平均模型 (ARMA):ARMA 模型结合了自回归与移动平均方法。ARMA 模型可以处理平稳时间序列,表示为 ARMA(p, q)。

  • 自回归积分滑动平均 (ARIMA): ARIMA 模型,记作 ARIMA(p, d, q),通过加入差分来对非平稳时间序列建模。

  • 季节性自回归积分滑动平均 (SARIMA):SARIMA 模型在 ARIMA 的基础上加入了季节性因素。季节性参数用大写字母表示,参数 m 表示季节的持续时间。SARIMA 模型记作 SARIMA(p, d, q)(P, D, Q)m,并且需要大量的历史数据。

  • 带外生变量的季节性自回归积分滑动平均 (SARIMAX):更复杂的时间序列数据不仅包含时间因素,还包括其他变量。SARIMAX 模型纳入外部变量,以生成更细致的预测。

  • 向量自回归 (VAR):虽然 ARIMA 最适合处理单变量任务,但向量自回归 (VAR) 可以处理多变量数据集。VAR 模型(包括 VARMA 和 VARMAX)可以同时对多个时间序列模型进行预测。

指数平滑法

指数平滑模型通过对时间序列中较早的观测值赋予递减的权重,从而减少噪声的影响。最近的观测结果被认为与未来预测更相关。指数平滑模型包括:

  • 简单指数平滑 (SES):指数平滑最基础的形式,通过在移动平均的基础上对近期观测值赋予更大权重。与简单的移动平均模型相比,SES 可以在降低噪声的同时保留更多细节。

  • 双指数平滑法 (DES):对指数平滑递归应用两次可以帮助抵消趋势的影响。DES 使用参数 α 作为数据平滑系数,使用 β 作为趋势平滑系数。

  • 三重指数平滑 (TES):对于同时具有趋势和季节性的时间序列数据,TES(也称为 Holt-Winters 指数平滑,HWES)进行第三次平滑处理。参数 γ 是季节平滑因子。

  • TBATS:TBATS(正弦函数、Box-Cox 变换、ARMA、趋势和季节成分)是一种专门用于具有复杂季节性的时间序列数据的指数平滑模型。

广义自回归条件异方差 (GARCH)

GARCH 是一种跟踪金融领域波动的专门模型。例如,在股票市场,波动性是股票价格波动的程度和速度。异方差性指回归模型中的误差随时间变化而不具有相同的方差。

数据科学中,如果变量的方差相同,则将其视为同方差;如果不相同,则将其视为异方差。

长短期记忆 (LSTM)

LSTM 将深度学习神经网络的能力引入时间序列建模。LSTM 模型是一种循环神经网络 (RNN),专门用于处理序列数据,例如时间序列。LSTM 擅长捕捉长程依赖关系:序列中远距离数据点之间的关联。

由于 LSTM 模型能够比其他类型的模型保留更多的上下文信息,因此它们在复杂的应用程序中表现良好,例如自然语言处理和识别现实世界的语音和图像。它们需要大量的训练数据,可以用 Python 构建。

时间序列建模指标

基准测试指标、测试和验证有助于优化模型性能,就像在许多其他机器学习应用程序中一样。

时间序列建模指标包括:

  • 平均平方误差 (MSE):每个时间戳误差平方的平均值。

  • 均方根误差 (RMSE):均方误差 (MSE) 的平方根。

  • 平均绝对误差 (MAE):每个观测值误差的平均值。

  • 平均绝对百分比误差 (MAPE):将 MAE 表示为百分比,显示误差的大小。MAPE 也称为平均绝对百分比偏差 (MAPD)。MAPE 是回归问题的常见损失函数

时间序列建模用例

时间序列模型在数据分析中发挥着重要作用,帮助数据科学家和企业决策者进行:

  • 模式识别:时间序列模型能够识别数据随时间反复出现的波动,例如季节性变化、长期周期以及总体趋势。例如,在服装行业,T 恤的销售量每年春夏季节性上涨。时尚潮流以数十年的周期重复出现又消退,比如宽松款式如今重新流行,就像上世纪 90 年代一样。

  • 异常检测异常是指偏离数据集中其他数据点的观测值。虽然偶尔出现的异常可能归因于噪声,但大量异常数据可能表明存在意外变化、数据管道问题或改进的机会。 

  • 趋势预测:基于历史数据,时间序列模型可以预测序列中的未来数据点。组织可以使用这些预测来做出更好的数据驱动决策

相关解决方案
分析工具和解决方案

企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。

深入了解分析解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
IBM Cognos Analytics

推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。

深入了解 Cognos Analytics
采取后续步骤

企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。

深入了解分析解决方案 了解分析服务