自己相関は、時系列データとモデリングのデータ分析を提供します。自己相関は、計量経済学、信号処理、需要予測に広く使用されています。
自己相関(または系列相関)は、時系列データを分析して、時系列のさまざまな時点における値の相関を調べます。この主要な分析方法は、値がそれ自体とどのように相関しているかを測定します。X1やX2などの異なる変数間の相関係数を計算する代わりに、データ・セット全体の時間ステップにおける変数自体の相関度を計算します。線形回帰モデルを構築する際の主要な仮定の1つは、そのモデルの独立変数を予測する誤差は独立しているということです。時系列データを扱っていると、多くの場合、時間に依存する誤差が見つかります。これは、時間的な要素によって現れるエラーの依存関係のことです。時間の経過に伴って相関する誤差項は、自己相関誤差と呼ばれます。これらの誤差により、通常の最小2乗法などの線形回帰を作成する一般的な方法について問題が生じます。この問題に対処する方法は、自己相関テストによって特定されたタイム・ラグを使用して、従属変数をそれ自体に回帰させることです。「ラグ」とは、従属変数の過去の値のことです。毎月のデータがあり、次の月を予測したい場合は、過去2カ月の値をインプットとして使用できます。これは、前の2つのラグを現在の値に回帰していることを意味します。
相関関係が2つの変数間の線形関係を測定するのと同じように、自己相関は線形モデルを通じて時系列のラグ値の間の関係を測定します。データにトレンドがある場合、時間的に近い観測値は値も近いため、小さなラグの自己相関は大きく、正になる傾向があります。したがって、トレンド時系列の自己相関関数(しばしば、ACFと呼ばれる)は、ラグが増加するにつれて徐々に減少する正の値を持つ傾向があります。
データに季節変動やパターンがある場合、自己相関は他のラグよりも季節的なラグ(季節期間の倍数)の方が大きくなります。データにトレンドと季節性がある場合、これらの効果が組み合わさって現れます。自己相関を示さない時系列は真にランダムなプロセスであり、ホワイト・ノイズと呼ばれます。ACFは、時系列における2つの値の相関係数です。
自己相関をテストするには、いくつかの主要な方法があります。
残差を計算し、時間tにおける標準誤差を、通常etと書いて、tに対してプロットすることができます。ゼロ線の片側にある残差のクラスターは、自己相関が存在し、有意であることを示している可能性があります。
Durbin-Watson検定を実行すると、時系列に自己相関が含まれているかどうかを特定することができます。Rでこれを行うには、従属変数を時間で回帰する線形回帰を作成し、そのモデルを渡して、Durbin-Watson統計を計算します。Pythonでこれを行うには、適合した線形回帰モデルの残差をテストに渡すことができます。
もう1つのオプションは、Ljung-Box検定を使用して、時系列の値をテストに直接渡すことです。Ljung-Box検定には、残差が独立して分布するという帰無仮説と、残差が独立分布せず、自己相関を示すという対立仮説があります。これは実際には、結果が0.05より小さい場合、時系列に自己相関が存在することを意味します。PythonやRのライブラリーは、この検定を実行する方法を提供しています。
最も一般的なオプションは、時系列中の特定のラグ間の相関から生成されたコレログラムの視覚化を使用することです。結果にパターンがある場合は、自己相関があることを示しています。これは、時系列全体を通して異なるラグの相関がどの程度あるかを示すことによってプロットされます。プロットの例を以下に示します。
非ランダム・データには少なくとも1つの有意なラグがあります。データがランダムでない場合は、時系列分析を使用するか、回帰分析にラグを組み込んでデータを適切にモデル化する必要があることを示しています。
時系列には、自己相関を通じて識別できる基本的な特徴があります。
定常時系列には、時間の経過とともに一定の統計的特性があります。つまり、平均、分散、自己相関などの統計は、データによって変化しないという意味です。ARMAやARIMAなどのほとんどの統計的予測手法は、時系列が1つ以上の変換を通じてほぼ定常にできるという仮定に基づいています。定常時系列は、統計的性質が将来も過去とほぼ同じであることを単純に予測できるため、予測が比較的容易です。定常性とは、時系列にトレンドがなく、一定の分散、一定の自己相関パターンを持ち、季節性のパターンがないことを意味します。定常時系列では、ACFは急速にゼロ近くまで減少します。対照的に、非定常時系列では、ACFはゆっくりと低下します。
時系列データの主な特徴は、データにトレンドが存在するかどうかです。例えば、過去50年間に食料品店で販売されていた基本食料品の価格は、インフレによって価格が上昇するため、トレンドを示すことになります。トレンドを含むデータの予測は、トレンドによってデータ内の他のパターンが不明瞭になるため、難しい場合があります。データに安定したトレンド・ラインがあり、それが一貫して回帰する場合、それはトレンド定常である可能性があります。この場合、モデルを当てはめる前に、トレンド・ラインを当てはめ、データからトレンドを差し引くだけで、トレンドを取り除くことができます。データがトレンド定常でない場合は、差分定常である可能性があり、その場合は差分化によってトレンドを取り除くことができます。差分化を行う最も簡単な方法は、各値から前の値を引いて、時系列データにどれだけの変化があるかを測定することです。例えば、 Ytが期間tにおける時系列Yの値である場合、期間tにおけるYの最初の差はYt - Yt-1に等しくなります。時系列にトレンドが存在する場合、ラグが短いほど、通常、ACFでは正の相関値が強いか、負の相関値が強くなります。これは、時間が近い観測値ほど、似たような値になる傾向があるからです。ACFの相関は、ラグが大きくなるにつれてゆっくりと減少します。
季節性とは、時系列に季節的な変動や変化が含まれることです。アイスクリームの売上は夏場が高く、冬場が低くなります。また、スキーの売上は確実に晩秋に急増し、初夏には落ち込むと考えるべきでしょう。季節性は、日、週、月といったさまざまな時間間隔で現れます。時系列分析の鍵は、季節性が時系列にどのような影響を与えるかを理解することです。そうすれば、より良い将来の予測を立てることができます。季節的なパターンが存在する場合、ACFの値は、季節周期の倍数の地点のラグの方が他のラグより正の自己相関が大きくなります。
偏自己相関関数はPACFと呼ばれることが多く、ACFに似ていますが、2つの観測値間の相関のみを表示し、その観測値間のラグよりも短いラグによって説明されることがない相関であるという点が異なります。ACFプロットは、 ytとyt−kの間の関係を、kのさまざまな値について示します。y tとy t-1が互いに相関している場合、 y t-1とy t-2もラグ1で結び付けられているため、相関していると仮定できるかもしれません。しかし、 y tとy t-2が相関している可能性もあります。これは、両方がyt-1に結び付けられているためであり、 yt−2に、ytの予測に使用できる新しい情報が含まれているからではありません。この問題を回避するために、偏自己相関を使用して、多くのラグ観測値を取り除きます。PACFは、ytとyt−kの間の関係のみを測定し、kに対するラグ1の影響を取り除きます。最初の偏自己相関は常に最初の自己相関と同じです。なぜなら、その間に除去すべき新しいデータがないからです。それ以降のすべてのラグは、介在するすべてのラグを取り除いた後のラグ間の関係のみを示します。これにより、正の自己相関または負の自己相関の値が大きいところを観察することで、多くの場合、どのラグに季節性の兆候が含まれているかをより正確に推定できます。
実際にやってみると、ACFは時系列の特性を評価するのに役立ちます。一方、PACFは、自己回帰モデルの指定プロセスにおいてより有用です。データサイエンティストまたはアナリストは、偏自己相関プロットを使用して、時系列データを使用した回帰モデル、自己回帰移動平均(ARMA)モデル、または自己回帰和分移動平均(ARIMA)モデルを指定します。
ABIソリューションの進化する状況について独自の洞察を提供し、データおよび分析のリーダーにとって重要な調査結果、仮定、推奨事項をご覧ください。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化、AIと分析の拡張など、データレイクハウス戦略をデータ・アーキテクチャーに統合することで、あらゆるデータをあらゆる場所で利用できるようになります。
データ駆動型の組織を構築し、ビジネス上の優位性を推進するためのデータ・リーダー向けガイドはこちらです。
オープンなデータレイクハウス・アプローチがどのように信頼できるデータを提供し、分析とAIプロジェクトをより迅速に実行できるかをご覧ください。
4つの重要なステップで、データおよび分析戦略をビジネス目標に結び付けましょう。
ビジネス・インテリジェンスの課題がなぜ解決されないのか、そしてそれが組織全体のユーザーにとって何を意味するのかを詳しく見てみましょう。
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。