IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
時系列モデリングは、機械学習アルゴリズムと統計的手法を使用して、一定期間にわたって変化するデータ・ポイントを分析することです。
時系列データセットは、独立した無関係なデータ・ポイントで構成されているものではないという点で、他のデータセットとは異なります。多くのデータセットが独立した観測に基づいているのに対し、時系列データセットはタイムスタンプでラベル付けされ、時系列に沿って変数を追跡し、データ・ポイント間に依存関係を生み出します。依存関係とは、ある値が別の値に影響を与えるデータ・ポイント間の関係を意味します。
単変量時系列モデリングでは、時間が唯一の独立変数です。他のすべての変数は以前の値に依存します。多変量時系列モデリングは、気象条件や人口統計情報など、より独立した変数を導入します。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
時系列モデリングの中核概念の多くは、時間に関連する、または時間から派生したデータの主要な機能です。これらの概念には次のものが含まれます。
自己相関
季節性
定常性
自己相関は、時系列内の履歴データの現在の値が過去の値とどの程度一致するかを測定します。自己相関とは、時系列の現在のイテレーションが、遅延バージョンに密接にマッピングされることを意味します。自己相関は、一定の時系列が繰り返して周期性を示しうるかどうかを識別します。
自己相関は、正または負のいずれかになります。正の自己相関とは、高い値がより高い値につながり、低い値が低い値につながることを意味します。負の自己相関では反対に、高い値が低い値に続くかその逆となります。
周期性とは、季節の変化のように、定期的な時間間隔に基づいて反復的なパターンが存在する時系列データの特性です。たとえば、eコマース・プラットフォームでは、春と夏にはより多くのグラス、秋と冬にはより多くの額や視覚的なデザインを販売する可能性があります。家庭は通常、夜間よりも日中に多くの電力を使用します。
時間に応じた周期的な変動は、予測モデルで将来の値を予測する際に役立ちます。チャートやグラフなどのデータ視覚化ツールは、周期性を、多くの場合正弦波の形で繰り返される変動として表現します。
時系列データ分析中、分解プロセスにより、データに存在する周期性や、傾向とノイズが明らかになります。トレンドとはデータ値の長期的な増加または減少のことで、ノイズとは予測可能なパターンに従わないランダムな変動のことです。ノイズは、多くの場合、エラーや外れ値から発生します。
定常的な時系列には、平均や分散などの静的な統計属性があります。定常性のあるデータ・ポイントは周期性をもって変動する可能性がありますが、それ以上の大きな傾向はありません。現代の年間平均地球気温の時系列は、気候変動の影響により気温が上昇していることから、非定常的なものと言えます。
ほとんどの時系列モデルでは、効果的に機能するために定常性が必要です。Dickey-Fullerテストは、データセットが定常的であるかどうかを明らかにします。定常性のない時系列データセットは、差分分析などの手法を使用して変換できます。これにより、傾向を除去し、周期性や自己相関などの他のパターンを分離できます。
予測課題に取り組む際、データ・サイエンティストにはさまざまな機械学習アルゴリズムの選択肢があります。データセットの性質によっては、より適したアルゴリズムが存在します。ワンステップ・モデルは時系列の次のポイントを予測し、マルチステップ・モデルは複数の時系列予測を生成します。
時系列モデルの種類には、次のものがあります。
自己回帰和分移動平均(ARIMA)
指数平滑法
一般化自己回帰条件付き不等分散性 (GARCH)
長短期記憶(LSTM)
MetaのオープンソースProphetとAmazonのDeepAR は、時系列モデリング用に構築された他の2つのAI モデルです。時系列予測タスクに線形回帰モデルを応用することも可能です。XGBoost やランダムフォレストなどの他の教師あり学習モデルは、非線形時系列データに応用できます。
ARIMAモデルファミリーは、単独で実行することも、さまざまなグループに組み合わせて実行することもできる、多数のモジュール形式のモデルから構成されていますARIMAは、過去のイベントに基づいて将来の値を予測する統計モデルであり、季節性を示す定常的な時系列に最適です。単変量データセットの扱いに優れており、多変量のユースケースにも適応できます。
ARIMAの構成には次のものが含まれます。
自己回帰 (AR): AR(p)として表される 自己回帰モデル は、確率的条件(不完全に予測可能な値)の過去の値に基づいて変数の将来の値を予測します。パラメータpは、遅延の程度、または予測を行うために使用されるデータポイントの数を示します。p値が1の場合は、直前の観測値まで遡ることになります。
移動平均 (MA): MA(q) で表される移動平均モデルは、過去の予測誤差に基づいて将来の値を予測します。パラメータqは、予測に含まれる誤差の数となります。MA(1)モデルには、過去の誤差が1つ組み込まれます。
統合(I): 積分モデルは差分 (d) を追加して、時系列を定常化させます。差分操作によって、データ値を現在の値と過去の値の差に置き換え、値の変化を表す新しいシリーズを作成します。パラメータdは、データポイントへの差分操作の回数を示します。
自己回帰移動平均(ARMA):ARMAモデルは、自己回帰と移動平均を組み合わせたものです。ARMA モデルは定常時系列を処理でき、ARMA(p, q) として表されます。
自己回帰和分移動平均(ARIMA): ARIMAモデルは、ARIMA( p, d, q )として表され、モデルの非定常時系列に差分を追加します。
周期性自己回帰和分移動平均(SARIMA):SARIMAモデルは季節性を追加する。周期性に関するパラメータは大文字で表し、パラメータmは周期の期間を示します。SARIMAモデルは SARIMA( p, d, q )( P, D, Q ) mと表現され、大量の履歴データを必要とします。
外生変数を含むSARIMA(SARIMAX):より複雑な時系列データには、時間以外の変数も含まれます。SARIMAXモデルは外部変数を組み込むことで、より細やかな予測を生成します。
ベクトル自己回帰(VAR):ARIMAは単変量タスクに最適ですが、ベクトル自己回帰(VAR)は多変量データセットを処理できます。VARMAやVARMAXなどのVARモデルは、複数の時系列モデルの予測を同時に行うことができます。
指数平滑化モデルは、時系列内のより古い観測値により低い重み・重要度を割り当てることで、ノイズを低減します。観察結果がより最近のものであるほど、将来の予測にあたっての関連性が高いと見なされます。指数平滑化モデルには以下が含まれます。
単純指数平滑化(SES): 最も基本的な形式の指数平滑化では、移動平均に変更を加え、より最近の観測結果により大きな重みづけをします。単純な移動平均モデルと比較して、SESはより詳細な情報を保持しながらノイズを削減します。
二重指数平滑化(DES):指数平滑化を再帰的に2回適用することで、傾向に対抗することができます。DES は、パラメーター α をデータ平滑化係数として使用し、 β を傾向への平滑化係数として使用します。
三重指数平滑化(TES): 傾向と周期性の両方を持つデータセットに対して、TES(Holt-Winters 指数平滑化(HWES)とも呼ばれる)は3回目の平滑化を適用します。パラメータ γ は、周期性平滑化係数です。
TBATS: TBATS(三角形、Box-Cox、ARMA、傾向および周期性コンポーネント)は、複雑な周期性のある時系列データセットに特化した指数平滑化モデルです。
GARCHは、金融セクターの変動を追跡する特殊なモデルです。例えば株式市場において、変動性とは、株価が変動する度合いと速度のことです。分散不均一とは、回帰モデルの誤差が時間の経過とともに同じ分散を共有しないことを意味します。
データサイエンスでは、変数の分散が同じ場合は分散均一とみなされ、そうでない場合は分散不均一とみなされます。
LSTMは、ディープラーニングニューラル・ネットワークのパワーを時系列モデリングに活用するものです。LSTMモデルは、時系列などの順次データに特化した 再帰型ニューラルネットワーク(RNN) です。LSTMは、長距離データ・ポイント間の関係、つまりシーケンス内の離れたデータ・ポイント間の関係をキャプチャすることに優れています。
LSTM デルは他の種類のモデルよりも多くのコンテキストを保持できるため、自然言語処理(NLP)や現実世界の音声や画像の認識などの複雑なアプリケーションに適しています。大量のトレーニング・データが必要となる他、Pythonで構築できます。
メトリクス、テスト、検証は、他の多くの機械学習アプリケーションと同様に、性能の最適化に役立ちます。
時系列モデリングのメトリクスには、次のものが含まれます。
平均二乗誤差(MSE):各タイムスタンプにおける誤差の二乗の平均。
二乗平均平方根誤差(RMSE)は、MSEの平方根です。
平均絶対誤差(MAE):各観測値の誤差値の平均。
平均絶対パーセンテージ誤差(MAPE):MAEをパーセンテージで表し、誤差の大きさを示します。MAPEは、平均絶対誤差(MAPD)とも呼ばれます。MAPEは回帰問題でよく使われる損失関数です。
時系列モデルはデータ分析において強力な役割を果たし、以下の用途でデータサイエンティストとビジネスリーダーの両方に役立ちます。
パターン認識:時系列モデルは、季節的な変化、長期的なサイクル、一般的なトレンドなど、時間経過に伴うデータの繰り返し変動を識別する。たとえば、ファッション業界では、Tシャツの売上は毎年春と夏に季節的に急増します。ファッションのトレンドは、数十年サイクルで出現し、衰退しています。オーバーサイズのフィット感は、1990年代と同様に人気があります。
異常検知:異常とは、データセット内の他のデータポイントから逸脱するデータポイントを指します。時たま発生する異常であればノイズに過ぎない場合もありますが、大量の異常データがある場合は、予期せぬ変化やデータ・パイプラインの問題、改善の余地を示している可能性があります。
トレンド予測: 時系列モデルは、過去のデータに基づいて、シリーズにおける将来のデータポイントをforecastingすることができます。組織はこれらの予測を使用して、より優れたデータ駆動型の意思決定を行うことができます。
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。