PCA 的示例
此示例显示如何识别 CUSTOMER_CHURN 数据集中的主成分,将其存储在 PCA 模型中,然后将此模型应用于其他数据。
您可以使用创建的 PCA 模型来预测新数据的主成分。
此示例针对客户流失率数据集创建 PCA 模型。
SAMPLES.CUSTOMER_CHURN 表包含要使用的数据。此外,还需要一个包含训练数据的表以及一个包含测试数据的表。
以下调用显示如何根据 SAMPLES.CUSTOMER_CHURN 表创建这些表。
CALL IDAX.SPLIT_DATA('intable=samples.customer_churn, traintable=customer_churn_train, testtable=customer_churn_project_pre, id=cust_id, fraction=0.9');
以下调用显示如何创建 PCA 模型。
CALL IDAX.PCA('model=customer_churn_pca, intable=customer_churn_train, id=cust_id, coldefrole=ignore, incolumn=DURATION;AVG_SPENT_RETAIN_PM;AVG_SQ_SPENT_RETAIN_PM;ANNUAL_REVENUE_MIL;TOTAL_EMPLOYEES;TOTAL_BUY;TOTAL_BUY_FREQ;TOTAL_BUY_FREQ_SQ, centerData=true, scaleData=true, forceEigenSolve=false, saveScores=true');
由于 PCA 函数仅支持连续输入列,因此将会过滤掉所有非数字列或离散列。输入数据将会居中并进行尺度伸缩,主成分计算是使用奇异值分解 (SVD) 来执行。
此外,每个主成分的得分都存储在 PCA 模型中。
通过“model”自变量指定以下元表。
<model_name>_META
<model_name>_PCA
<model_name>_ATTMEAN
<model_name>_ATTSD
<model_name>_ATTSD_DIV
<model_name>_SCORES
<model_name>_SDEV
<model_name>_RCV
您可使用 PRINT_MODEL 过程来查看由这些表组成的 PCA 模型,如下所示:
Result set 1
--------------
ID PC1 PC2 PC3 PC4 ...
--- ------------------------ ------------------------ ------------------------ ------------------------ ...
1] +1.65727166025521E+000 +1.40976803961328E+000 +1.05428317056634E+000 +1.00661921778098E+000 ...
1 record(s) selected.
Result set 2
--------------
ID PC1 PC2 PC3 PC4 ...
--------------------------- ------------------------ ------------------------ ------------------------ ------------------------ ...
DURATION +5.60318143412660E-001 -2.18647274716772E-002 +5.10079834520816E-002 -1.90423990300730E-001 ...
AVG_SPENT_RETAIN_PM -5.64039266932060E-001 +3.82013477352810E-003 +6.97059518304552E-002 -2.04239857563087E-001 ...
AVG_SQ_SPENT_RETAIN_PM -5.84291068949257E-001 -1.22230471272086E-002 +6.90425476061470E-002 -1.76276233237407E-001 ...
ANNUAL_REVENUE_MIL +8.88768424472973E-002 +4.41767150633714E-002 +6.06883648826900E-001 +1.62114024933152E-001 ...
TOTAL_EMPLOYEES +8.44624028753465E-002 -1.75756296874039E-002 +6.04577189935120E-001 -6.53914336812468E-001 ...
TOTAL_BUY +1.06723780559009E-001 +8.81594438912170E-002 -5.02786941873035E-001 -6.60181838993008E-001 ...
TOTAL_BUY_FREQ +8.87399480111440E-003 -7.03193685540747E-001 -3.25360238114661E-002 -2.95322362404112E-002 ...
TOTAL_BUY_FREQ_SQ -2.35085602543812E-003 -7.03451494800843E-001 -9.88680721058580E-003 -1.88240169390858E-002 ...
8 record(s) selected.
Return Status = 0
采用这种 PCA 模型表示法,很容易就可以与 R 中使用“prcomp()”和“print()”函数创建的 PCA 模型进行比较。
PCA 模型的另一种表示法是摘要视图(类似于 R 中的“summary()”函数),如下所示:
CALL IDAX.PRINT_PCA('model=customer_churn_pca, mode=summary');
Result set 1
--------------
MEASURE PC1 PC2 PC3 PC4 ...
--------------------------- ------------------------ ------------------------ ------------------------ ------------------------ ...
Standard deviation +1.65727166025521E+000 +1.40976803961328E+000 +1.05428317056634E+000 +1.00661921778098E+000 ...
Proportion of Variance +3.43318669485631E-001 +2.48430740689382E-001 +1.38939125467427E-001 +1.26660281200748E-001 ...
Cumulative Proportion +3.43318669485631E-001 +5.91749410175013E-001 +7.30688535642440E-001 +8.57348816843189E-001 ...
3 record(s) selected.
Return Status = 0
您可以使用 PROJECT_PCA 函数和先前创建的 PCA 模型来预测新数据的主成分。用于预测的输入数据(也称为 PCA 的投影)的结构必须与用于创建 PCA 模型的结构完全相同,即,这两个结构中的列必须相同。
要使用“customer_churn_project_pre”表进行预测,以下示例显示如何转换这个表。此步骤为必需,因为表“customer_churn_project_pre”中包含未反映在上一步所创建 PCA 模型中的列。因此,必须先过滤掉这些列,然后才能应用该 PCA 模型。
CREATE TABLE customer_churn_project_in AS (SELECT CUST_ID,
DURATION, AVG_SPENT_RETAIN_PM, AVG_SQ_SPENT_RETAIN_PM,
ANNUAL_REVENUE_MIL, TOTAL_EMPLOYEES, TOTAL_BUY,
TOTAL_BUY_FREQ, TOTAL_BUY_FREQ_SQ FROM
customer_churn_project_pre) WITH NO DATA;
INSERT INTO customer_churn_project_in (SELECT CUST_ID,
DURATION, AVG_SPENT_RETAIN_PM, AVG_SQ_SPENT_RETAIN_PM,
ANNUAL_REVENUE_MIL, TOTAL_EMPLOYEES, TOTAL_BUY,
TOTAL_BUY_FREQ, TOTAL_BUY_FREQ_SQ FROM
customer_churn_project_pre);
DROP TABLE customer_churn_project_pre;
CALL IDAX.PROJECT_PCA('model=customer_churn_pca, intable=customer_churn_project_in, outtable=customer_churn_project_out');
在此示例中,对于所指定输入数据集中的每个实例,输出表均包含一行。
以下各列显示主成分:
ID PC1 PC2 PC3 PC4 ...
-------------------- ------------------------ ------------------------ ------------------------ ------------------------ ...