モデルの検証

時系列モデル・ナゲットをダブルクリックし、「出力」タブを選択して、市場ごとに生成されたモデルに関するデータを表示します。
図 1. 市場に対して生成された時系列モデル

左の出力列で、いずれかの市場に対する「モデル情報」を選択します。「予測値の数」行に、対象ごとに予測値として使用されたフィールドの数が表示されます。このケースでは、なしです。

「モデル情報」テーブルの残りの行には、モデルごとのさまざまな適合度の指標が表示されます。「定常 R2 乗」値は、そのモデルによって説明される系列における総変動の比率の推定を示しています。値が大きいほど (最大 1.0)、モデルの適合度は良好です。

Q(#) の「統計値」、「自由度」、および「有意確率」の各行は、モデルの残差エラーのランダム性の検定である Ljung-Box 統計に関連し、エラーがランダムであるほど、そのモデルは良好です。「Q(#)」は Ljung-Box 統計そのもので、「自由度」 (自由の度合い) は特定の対象を推定するときに自由に変化するモデル・パラメータの数を示します。

「有意確率」行は、Ljung-Box 統計の有意確率値を示し、そのモデルが正しく指定されているかどうかに関するもう 1 つの指標です。0.05 未満の有意確率値は、残差エラーがランダムではないことを示し、モデルでは考慮されていない構造が観測対象の系列にあるということを意味しています。

「定常 R2 乗」と「有意確率」の両方の値を考慮すると、エキスパート・モデラーが Market_3 と Market_4 に対して選択したモデルは非常に良好です。Market_1、Market_2、および Market_5 の「有意確率」値は、いずれも 0.05 未満であり、これらの市場に対してより適合度が高いモデルを使用した実験が必要な可能性があることを示しています。

さまざまな適合度の追加測定結果が表示されます。「R2 乗」値は、そのモデルによって説明される時系列での総変動の比率の推定を示しています。この統計の最大値は 1.0 で、この点で良好なモデルといえます。

2 乗平均平方根誤差 (RMSE) は、系列の実際の値がモデルで予測される値とどの程度異なるかの尺度であり、系列自体の単位と同じ単位で表されます。これは誤差の尺度であるため、この値はできるだけ低いことが期待されます。一見すると、Market_2 および Market_3 のモデルは、これまでに確認した統計に関しては妥当ですが、他の 3 つの市場のモデルと比較すると、それほど良好ではありません。

これらのその他の適合度指標には、平均絶対パーセント誤差 (MAPE) およびその最大値 (MAXAPE) が含まれます。絶対パーセント誤差は、モデル予測レベルから対象系列が変動する量に関する尺度で、パーセント値で表されます。すべてのモデルで平均値および最大値を検証することで、予測の不確定性についての目安を得ることができます。

MAPE 値を見ると、すべてのモデルが 1% 程度の非常に低い平均不確定性を示しています。MAXAPE 値は最大絶対パーセント誤差を表し、予測の最悪のシナリオを想定するために役立ちます。ここでは、Market_4 が 7% 近い高い数値になっているのみで、ほとんどのモデルの最大パーセント誤差はおよそ 1.8 から 3.7% の範囲内に収まる、非常に低い数値が再び示されています。

MAE (平均絶対誤差) 値は、予測の誤差の絶対値の平均を示します。RMSE 値と同様に、系列自体の単位と同じ単位で表されます。MAXAE は、最大予測誤差を同じ単位で示すもので、予測の最悪のシナリオを示します。

これらの絶対値は興味深いのですが、この場合は、対象系列が規模が変動する市場の加入者数を表すため、パーセント誤差の値 (MAPE および MAXAPE) の方が役立ちます。

MAPE 値および MAXAPE 値が表す不確定性は、そのモデルで許容される程度でしょうか。ここでは明らかに非常に低い値となっています。許容できるリスクは問題に応じて変化するため、これについてはビジネス・センスを活用する場面です。適合度統計は許容範囲内に収まると想定して、残差エラーの確認に進みます。

モデルの残差の自己相関関数 (ACF) および偏自己相関関数 (PACF) の値を検証することにより、単に適合度統計を表示するよりも、モデルに関してより数量的な洞察が得られます。

適切に指定された時系列モデルでは、季節性、トレンド、循環性などの重要な因子をはじめ、すべての無作為でない変動が取得されます。これに該当する場合、どの誤差についても、経時的にそれ自体と相関 (自己相関) させるべきではありません。自己相関関数のいずれかに有意な構造が見られる場合、それは基礎となるモデルが不完全であることを意味します。
4 つめの市場については、左の列の「相関曲線」をクリックして、モデル内の残差エラーの自己相関関数 (ACF) および偏自己相関関数 (PACF) の値を表示します。
図 2. 4 つめの市場の ACF および PACF の値

これらのプロットでは、誤差変数の元の値を最大 24 期間遅延させて、元の値と比較することによって、経時的な相関があるかどうかを確認します。モデルとして許容されるには、上側のプロット (ACF) のどの棒も、正 (上) または負 (下) のいずれかの方向に、色の濃い領域からはみ出していない必要があります。

はみ出している場合は、下側のプロット (PACF) でその構造が確定されているかどうかを確認する必要があります。PACF プロットは、介入時点で系列値を制御した後の相関に注目しています。

Market_4 の値はすべて、色の濃い領域内にあるため、引き続き他の市場の値を確認できます。
その他の市場それぞれと、合計について、「相関曲線」をクリックします。
その他の市場の値はすべて、色の濃い領域外の何らかの値を示していて、「有意確率」値から事前に予測した内容が確認されます。ある時点のこれらの市場に対してさまざまなモデルで実験を行い、より優れた適合度が得られるかを確認する必要がありますが、この例の残りでは、Market_4 モデルから学習できるその他の内容について集中します。
「グラフ」パレットから、時系列グラフ・ノードを時系列モデル・ナゲットに接続します。
「プロット」タブで、「別のパネルに時系列を表示」チェック・ボックスをクリアします。
「系列」リストでフィールド選択ボタンをクリックし、「Market_4」および「$TS-Market_4」フィールドを選択し、「OK」をクリックしてリストに追加します。
「実行」をクリックして、地方市場の 1 つ目の実際のデータおよび予測データの折れ線グラフを表示します。
図 3. プロットするフィールドの選択

予測 ($TS-Market_4) の線が実際のデータの終端以降にどのように伸びるかに注目してください。これが、この市場の今後 3 カ月間の見込み需要の予測です。

時系列全体の実際のデータと予測データの線は、グラフ上で密接しており、モデルがこの特定の時系列に対しては信頼できることを示しています。

図 4. Market_4 の実際のデータと予測データの時系列

今後の例で使用できるように、モデルをファイルに保存します。
「OK」をクリックして現在のグラフを閉じます。
時系列モデル・ナゲットを開きます。
「ファイル」>「ノードの保存」を選択し、ファイルの場所を指定します。
「保存」をクリックします。
この特定の市場に対して信頼できるモデルが得られましたが、その予測はどのような誤差の許容範囲を持つでしょうか。信頼区間を検証することにより、この指標が得られます。
ストリームの最後の時系列グラフ・ノード (ラベルは Market_4 $TS-Market_4) をダブルクリックして、ダイアログ・ボックスを再度開きます。
フィールド選択ボタンをクリックし、「$TSLCI-Market_4」および「$TSUCI-Market_4」フィールドを「系列」リストに追加します。
「実行」をクリックします。

前と同様のグラフが得られましたが、今回は信頼区間の上限 ($TSUCI) および下限 ($TSLCI) が追加されています。

信頼区分の境界が予測期間中にどのように分岐しているかに注目してください。予測が先の将来に進むほど不確定性が増大する様子を示しています。

ただし、期間が経過するたびに、予測の基礎となる 1 カ月分 (この場合) の実際の使用データが新たに得られます。この新しいデータをストリームに読み取り、信頼できると分かっているモデルを再適用することができます。詳しくは、トピック時系列モデルの再適用を参照してください。