时间序列建模是指利用机器学习算法和统计方法分析随时间变化的数据点。
时间序列数据集与其他数据集的不同之处在于,它们并非由独立、不相关的数据点组成。虽然许多数据集都是基于单个观测值,但时间序列数据集带有时间戳标签,并跟踪变量随时间的变化,从而在数据点之间建立依赖关系。依赖关系是数据点之间的关系,其中一个数据点的数值会影响另一个数据点的数值。
在单变量时间序列建模中,时间是唯一的自变量。所有其他变量都取决于先前的值。多变量时间序列建模引入了更多的自变量,例如天气状况或人口统计信息。
时间序列建模的诸多核心概念都涉及时序特征,即与时间相关或从时间维度衍生出的数据特性。这些概念包括:
自相关性
季节性
平稳性
自相关衡量时间序列中当前数值与历史数据过去数值的对应程度。自相关意味着时间序列的当前观测值与滞后观测值高度对应。自相关用于识别时间序列是否存在重复模式,并可指示季节性。
自相关可以是正相关,也可以是负相关。正自相关意味着高值导致较高的值,而低值导致较低的值。负自相关则相反:高值之后往往伴随低值,反之亦然。
季节性是时间序列数据的一种特征,指的是基于固定时间间隔出现的重复模式,例如季节变化。例如,电子商务平台可能在春季和夏季销售更多的太阳镜,在秋季和冬季销售更多的丝巾。家庭通常在白天用电量比夜间更高。
时间相关的季节性变化在使用预测模型进行未来数值预测时非常有用。图表和图形等数据可视化工具将季节性描述为重复波动,通常以正弦波的形式出现。
在时间序列数据分析过程中,分解过程会揭示数据中存在的任何季节性,以及趋势和噪声。趋势是指数据值的长期增加或减少,而噪声是指不遵循可预测模式的随机波动。噪声通常来源于误差和异常值。
平稳时间序列具有静态统计属性,例如均值和方差。对于平稳性,数据点可以随季节性波动,但没有更大的趋势。由于气候变化导致气温上升,现代全球年度平均气温的时间序列是非平稳的。
平稳性对于大多数时间序列模型的有效运行是必需的。Dickey-Fuller 检验用于判断数据集是否为平稳序列。不平稳的时间序列数据集可以通过差分等技术进行转换,以消除趋势并分离其他模式,如季节性和自相关性。
ARIMA 模型系列由众多模块化构建块模型组成,这些模型可以单独运行,也可以以各种组合方式运行。ARIMA 是一种根据过去事件预测未来值的统计模型,最适合显示季节性的平稳时间序列。它在处理单变量数据集方面表现出色,也可以适应多变量用例。
ARIMA 配置包括:
自回归 (AR):自回归模型,记作 AR(p),基于随机项中变量的历史值预测未来值:随机项是指无法完全预测的项。参数 p 表示滞后阶数,即用于预测的数据点数量。p 值为 1 表示回溯到序列中的前一个观测值。
移动平均 (MA):移动平均模型,记作 MA(q),基于过去的预测误差来预测未来值。参数 q 是预测中包含的误差数量。MA(1) 模型将包含一个过去的错误。
差分 (I):积分模型通过加入差分项 (d) 使时间序列平稳。差分将数据值替换为当前值与过去值的差异,从而生成一个新的序列来表示数值的变化。参数 d 表示数据点被差分的次数。
自回归移动平均模型 (ARMA):ARMA 模型结合了自回归与移动平均方法。ARMA 模型可以处理平稳时间序列,表示为 ARMA(p, q)。
自回归积分滑动平均 (ARIMA): ARIMA 模型,记作 ARIMA(p, d, q),通过加入差分来对非平稳时间序列建模。
季节性自回归积分滑动平均 (SARIMA):SARIMA 模型在 ARIMA 的基础上加入了季节性因素。季节性参数用大写字母表示,参数 m 表示季节的持续时间。SARIMA 模型记作 SARIMA(p, d, q)(P, D, Q)m,并且需要大量的历史数据。
带外生变量的季节性自回归积分滑动平均 (SARIMAX):更复杂的时间序列数据不仅包含时间因素,还包括其他变量。SARIMAX 模型纳入外部变量,以生成更细致的预测。
向量自回归 (VAR):虽然 ARIMA 最适合处理单变量任务,但向量自回归 (VAR) 可以处理多变量数据集。VAR 模型(包括 VARMA 和 VARMAX)可以同时对多个时间序列模型进行预测。
指数平滑模型通过对时间序列中较早的观测值赋予递减的权重,从而减少噪声的影响。最近的观测结果被认为与未来预测更相关。指数平滑模型包括:
简单指数平滑 (SES):指数平滑最基础的形式,通过在移动平均的基础上对近期观测值赋予更大权重。与简单的移动平均模型相比,SES 可以在降低噪声的同时保留更多细节。
双指数平滑法 (DES):对指数平滑递归应用两次可以帮助抵消趋势的影响。DES 使用参数 α 作为数据平滑系数,使用 β 作为趋势平滑系数。
三重指数平滑 (TES):对于同时具有趋势和季节性的时间序列数据,TES(也称为 Holt-Winters 指数平滑,HWES)进行第三次平滑处理。参数 γ 是季节平滑因子。
TBATS:TBATS(正弦函数、Box-Cox 变换、ARMA、趋势和季节成分)是一种专门用于具有复杂季节性的时间序列数据的指数平滑模型。
GARCH 是一种跟踪金融领域波动的专门模型。例如,在股票市场,波动性是股票价格波动的程度和速度。异方差性指回归模型中的误差随时间变化而不具有相同的方差。
在数据科学中,如果变量的方差相同,则将其视为同方差;如果不相同,则将其视为异方差。
LSTM 将深度学习神经网络的能力引入时间序列建模。LSTM 模型是一种循环神经网络 (RNN),专门用于处理序列数据,例如时间序列。LSTM 擅长捕捉长程依赖关系:序列中远距离数据点之间的关联。
由于 LSTM 模型能够比其他类型的模型保留更多的上下文信息,因此它们在复杂的应用程序中表现良好,例如自然语言处理和识别现实世界的语音和图像。它们需要大量的训练数据,可以用 Python 构建。
基准测试指标、测试和验证有助于优化模型性能,就像在许多其他机器学习应用程序中一样。
时间序列建模指标包括:
平均平方误差 (MSE):每个时间戳误差平方的平均值。
均方根误差 (RMSE):均方误差 (MSE) 的平方根。
平均绝对误差 (MAE):每个观测值误差的平均值。
平均绝对百分比误差 (MAPE):将 MAE 表示为百分比,显示误差的大小。MAPE 也称为平均绝对百分比偏差 (MAPD)。MAPE 是回归问题的常见损失函数。
企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。