PCA 的示例

此示例显示如何识别 CUSTOMER_CHURN 数据集中的主成分,将其存储在 PCA 模型中,然后将此模型应用于其他数据。

您可以使用创建的 PCA 模型来预测新数据的主成分。

此示例针对客户流失率数据集创建 PCA 模型。

SAMPLES.CUSTOMER_CHURN 表包含要使用的数据。此外,还需要一个包含训练数据的表以及一个包含测试数据的表。

以下调用显示如何根据 SAMPLES.CUSTOMER_CHURN 表创建这些表。

CALL IDAX.SPLIT_DATA('intable=samples.customer_churn, traintable=customer_churn_train, testtable=customer_churn_project_pre, id=cust_id, fraction=0.9');

以下调用显示如何创建 PCA 模型。

CALL IDAX.PCA('model=customer_churn_pca, intable=customer_churn_train, id=cust_id, coldefrole=ignore, incolumn=DURATION;AVG_SPENT_RETAIN_PM;AVG_SQ_SPENT_RETAIN_PM;ANNUAL_REVENUE_MIL;TOTAL_EMPLOYEES;TOTAL_BUY;TOTAL_BUY_FREQ;TOTAL_BUY_FREQ_SQ, centerData=true, scaleData=true, forceEigenSolve=false, saveScores=true');

由于 PCA 函数仅支持连续输入列,因此将会过滤掉所有非数字列或离散列。输入数据将会居中并进行尺度伸缩,主成分计算是使用奇异值分解 (SVD) 来执行。

此外,每个主成分的得分都存储在 PCA 模型中。

通过“model”自变量指定以下元表。

<model_name>_META
<model_name>_PCA
<model_name>_ATTMEAN
<model_name>_ATTSD
<model_name>_ATTSD_DIV
<model_name>_SCORES
<model_name>_SDEV
<model_name>_RCV

您可使用 PRINT_MODEL 过程来查看由这些表组成的 PCA 模型,如下所示:

Result set 1
--------------
ID  PC1                      PC2                      PC3                      PC4                      ...
--- ------------------------ ------------------------ ------------------------ ------------------------ ...
 1]   +1.65727166025521E+000   +1.40976803961328E+000   +1.05428317056634E+000   +1.00661921778098E+000 ...

  1 record(s) selected.
Result set 2
--------------
ID                          PC1                      PC2                      PC3                      PC4                      ...
--------------------------- ------------------------ ------------------------ ------------------------ ------------------------ ...
DURATION                      +5.60318143412660E-001   -2.18647274716772E-002   +5.10079834520816E-002   -1.90423990300730E-001 ...
AVG_SPENT_RETAIN_PM           -5.64039266932060E-001   +3.82013477352810E-003   +6.97059518304552E-002   -2.04239857563087E-001 ...
AVG_SQ_SPENT_RETAIN_PM        -5.84291068949257E-001   -1.22230471272086E-002   +6.90425476061470E-002   -1.76276233237407E-001 ...
ANNUAL_REVENUE_MIL            +8.88768424472973E-002   +4.41767150633714E-002   +6.06883648826900E-001   +1.62114024933152E-001 ...
TOTAL_EMPLOYEES               +8.44624028753465E-002   -1.75756296874039E-002   +6.04577189935120E-001   -6.53914336812468E-001 ...
TOTAL_BUY                     +1.06723780559009E-001   +8.81594438912170E-002   -5.02786941873035E-001   -6.60181838993008E-001 ...
TOTAL_BUY_FREQ                +8.87399480111440E-003   -7.03193685540747E-001   -3.25360238114661E-002   -2.95322362404112E-002 ...
TOTAL_BUY_FREQ_SQ             -2.35085602543812E-003   -7.03451494800843E-001   -9.88680721058580E-003   -1.88240169390858E-002 ...

  8 record(s) selected.

  Return Status = 0

采用这种 PCA 模型表示法,很容易就可以与 R 中使用“prcomp()”和“print()”函数创建的 PCA 模型进行比较。

PCA 模型的另一种表示法是摘要视图(类似于 R 中的“summary()”函数),如下所示:

CALL IDAX.PRINT_PCA('model=customer_churn_pca, mode=summary');

Result set 1
--------------

MEASURE                     PC1                      PC2                      PC3                      PC4                      ...
--------------------------- ------------------------ ------------------------ ------------------------ ------------------------ ...
Standard deviation            +1.65727166025521E+000   +1.40976803961328E+000   +1.05428317056634E+000   +1.00661921778098E+000 ...
Proportion of Variance        +3.43318669485631E-001   +2.48430740689382E-001   +1.38939125467427E-001   +1.26660281200748E-001 ...
Cumulative Proportion         +3.43318669485631E-001   +5.91749410175013E-001   +7.30688535642440E-001   +8.57348816843189E-001 ...

  3 record(s) selected.

  Return Status = 0

您可以使用 PROJECT_PCA 函数和先前创建的 PCA 模型来预测新数据的主成分。用于预测的输入数据(也称为 PCA 的投影)的结构必须与用于创建 PCA 模型的结构完全相同,即,这两个结构中的列必须相同。

要使用“customer_churn_project_pre”表进行预测,以下示例显示如何转换这个表。此步骤为必需,因为表“customer_churn_project_pre”中包含未反映在上一步所创建 PCA 模型中的列。因此,必须先过滤掉这些列,然后才能应用该 PCA 模型。

CREATE TABLE customer_churn_project_in AS (SELECT CUST_ID, 
DURATION, AVG_SPENT_RETAIN_PM, AVG_SQ_SPENT_RETAIN_PM, 
ANNUAL_REVENUE_MIL, TOTAL_EMPLOYEES, TOTAL_BUY, 
TOTAL_BUY_FREQ, TOTAL_BUY_FREQ_SQ FROM 
customer_churn_project_pre) WITH NO DATA;
INSERT INTO customer_churn_project_in (SELECT CUST_ID, 
DURATION, AVG_SPENT_RETAIN_PM, AVG_SQ_SPENT_RETAIN_PM, 
ANNUAL_REVENUE_MIL, TOTAL_EMPLOYEES, TOTAL_BUY, 
TOTAL_BUY_FREQ, TOTAL_BUY_FREQ_SQ FROM 
customer_churn_project_pre);
DROP TABLE customer_churn_project_pre;

CALL IDAX.PROJECT_PCA('model=customer_churn_pca, intable=customer_churn_project_in, outtable=customer_churn_project_out');

在此示例中,对于所指定输入数据集中的每个实例,输出表均包含一行。

以下各列显示主成分:

ID                   PC1                      PC2                      PC3                      PC4                      ...
-------------------- ------------------------ ------------------------ ------------------------ ------------------------ ...