Netezza 建模节点属性

IBM Netezza 数据库建模节点的公共属性如下所示。

表 1. 公共 Netezza 节点属性
公共 Netezza 节点属性 属性说明
custom_fields 标志 如果为 true,则允许您为当前节点指定目标、输入和其他字段。 如果为 false,则使用来自上游类型节点的当前设置。
inputs [field1 ... fieldN] 模型所使用的输入或预测变量字段。
target 字段 目标字段(连续或分类)。
record_id 字段 要用作唯一记录标识的字段。
use_upstream_connection 标志 如果为 true(缺省),那么连接详细信息在上游节点中指定。 在指定了 move_data_to_connection 时不使用。
move_data_connection 标志 如果为 true,则将数据移动到由 connection 指定的数据库。 在指定了 use_upstream_connection 时不使用。
connection 结构化 这是用于存储模型的 Netezza 数据库的连接字符串。 格式为 ['odbc' '<dsn>' '<username>' '<psw>' '<catname>' '<conn_attribs>' [true|false]] 的结构化属性,其中: <dsn> 是数据源名称 <username><psw> 是数据库的用户名和密码 <catname> 是目录名称 <conn_attribs> 是连接属性 true | false 指示是否需要密码。
table_name string 这是用于存储模型的数据库表的名称。
use_model_name 标志 如果为 true,使用由 model_name 指定的名称作为模型名称,否则采用系统创建的模型名称。
model_name string 新模型的定制名称。
include_input_fields 标志 如果为 true,向下游传递所有输入字段,否则仅传递模型产生的 record_id 和字段。

Netezza 决策树

类型为 netezzadectreenode 的节点的可用属性如下所示:

表 2。 netezzdetreenode 属性
netezzadectreenode 属性 属性说明
impurity_measure Entropy Gini 对杂质的测量,用于评估树的最佳拆分位置。
max_tree_depth 整数 树可以增长到的最大级别数。 缺省值为 62(最大可能值)。
min_improvement_splits 成员 进行分割前必须满足的最低杂质改进。 缺省值为 0.01。
min_instances_split 整数 可以进行分割前余下的最小未分割记录数。 缺省值为 2(最小可能值)。
weights 结构化 各个类的相对权重。 以下格式的结构化属性: set :netezza_dectree.weights = [[drugA 0.3][drugB 0.6]] 缺省值是所有类的权重 1。
pruning_measure Acc wAcc 缺省值为 Acc(准确性)。 如果要在应用修剪时将类权重考虑在内,可使用 wAcc(加权精确度)替代。
prune_tree_options allTrainingData
partitionTrainingData
useOtherTable
缺省情况下,使用 allTrainingData 来估计模型精确度。 使用 partitionTrainingData 来指定要使用训练数据的百分比,或 useOtherTable 来使用源自指定数据库表的训练数据集。
perc_training_data 成员 如果 prune_tree_options 设置为 partitionTrainingData,则指定用于训练的数据所占的百分比。
prune_seed 整数 prune_tree_options 设置为 partitionTrainingData 时,用于重复分析结果的随机种子,缺省值是 1。
pruning_table string 这是用于估计模型精确度的单独修剪数据集的表名称。
compute_probabilities 标志 如果为 true,那么将生成置信度级别(概率)字段以及预测字段。

Netezza K-Means

类型为 netezzakmeansnode 的节点的可用属性如下所示:

表 3。 netezzak曲折节点属性
netezzakmeansnode 属性 属性说明
distance_measure Euclidean Manhattan Canberra maximum 这是用于对数据点之间的距离进行测量的方法。
num_clusters 整数 要创建的聚类数;缺省值为 3。
max_iterations 整数 算法迭代次数,模型训练在此之后停止;缺省值为 5。
rand_seed 整数 这是用于复制分析结果的随机种子;缺省值为 12345。

Netezza 贝叶斯网络

类型为 netezzabayesnode 的节点的可用属性如下所示:

表 4。 netezzabayesnode 属性
netezzabayesnode 属性 属性说明
base_index 整数 对第一个输入字段指定的数字标识,用于进行内部管理;缺省值为 777。
sample_size 整数 属性数目非常大时的采样大小;缺省值为 10,000。
display_additional_information 标志 如果为 true,则在消息对话框中显示额外的进度信息。
type_of_prediction best neighbors nn-neighbors 要使用的预测算法类型:best(最相关的相邻值)、neighbors(相邻值的加权预测)或 nn-neighbors(非空相邻值)。

Netezza 朴素贝叶斯

类型为 netezzanaivebayesnode 的节点的可用属性如下所示:

表 5。 netezzanaivebayesnode 属性
netezzanaivebayesnode 属性 属性说明
compute_probabilities 标志 如果为 true,那么将生成置信度级别(概率)字段以及预测字段。
use_m_estimation 标志 如果为 true,则使用 m-estimation 技术以避免估算期间的零概率。

Netezza KNN

类型为 netezzaknnnode 的节点的可用属性如下所示:

表 6。 netezzaknnnode 属性
netezzaknnnode 属性 属性说明
weights 结构化 这是用于对各个类指定权重的结构化属性。 示例:set :netezzaknnnode.weights = [[drugA 0.3][drugB 0.6]]
distance_measure Euclidean Manhattan Canberra Maximum 这是用于对数据点之间的距离进行测量的方法。
num_nearest_neighbors 整数 特定观测值的最近邻元素数;缺省值为 3。
standardize_measurements 标志 如果为 true,那么在计算距离值之前,对连续输入字段的测量值进行标准化。
use_coresets 标志 如果为 true,则对大型数据集使用核心集采样以提高计算速度。

Netezza 分裂式聚类

类型为 netezzadivclusternode 的节点的可用属性如下所示:

表 7。 netezzadivclusternode 属性
netezzadivclusternode 属性 属性说明
distance_measure Euclidean Manhattan Canberra Maximum 这是用于对数据点之间的距离进行测量的方法。
max_iterations 整数 在模型训练停止前执行的最大算法迭代次数;缺省值为 5。
max_tree_depth 整数 可以将数据集拆分为的最大级别数;缺省值为 3。
rand_seed 整数 随机种子,用于复制分析;缺省值为 12345。
min_instances_split 整数 可以拆分的最小记录数,缺省值为 5。
level 整数 要将记录评分到的层次结构级别;缺省值为 -1。

Netezza PCA

类型为 netezzapcanode 的节点的可用属性如下所示:

表 8。 netezzapcanode 属性
netezzapcanode 属性 属性说明
center_data 标志 如果为 true(缺省值),那么先执行数据集中(也称为“均值消去法”),然后再执行分析。
perform_data_scaling 标志 如果为 true,那么在分析前执行数据换算。 这样做可以减低以不同单位测量不同变量时的分析任意性。
force_eigensolve 标志 如果为 true,则使用不太准确但较快的方法来查找主成份。
pc_number 整数 要将数据集精简到的主成份数;缺省值为 1。

Netezza 回归树

类型为 netezzaregtreenode 的节点的可用属性如下所示:

表 9。 netezzaregtreenode 属性
netezzaregtreenode 属性 属性说明
max_tree_depth 整数 树在根节点下可以增长到的最大级别数;缺省值为 10。
split_evaluation_measure Variance 类杂质测量,用于评估分割树的最佳位置,缺省值(当前唯一选项)是 Variance
min_improvement_splits 成员 在树中进行新拆分前要将杂质减少到的最小数量。
min_instances_split 整数 可以拆分的最小记录数。
pruning_measure mse r2 pearson spearman 要使用的修剪方法
prune_tree_options allTrainingData partitionTrainingData useOtherTable 缺省情况下,使用 allTrainingData 来估计模型精确度。 使用 partitionTrainingData 来指定要使用训练数据的百分比,或 useOtherTable 来使用源自指定数据库表的训练数据集。
perc_training_data 成员 如果 prune_tree_options 设置为 PercTrainingData,则指定用于训练的数据所占的百分比。
prune_seed 整数 prune_tree_options 设置为 PercTrainingData 时,用于重复分析结果的随机种子,缺省值是 1。
pruning_table string 这是用于估计模型精确度的单独修剪数据集的表名称。
compute_probabilities 标志 如果为 true,则指定应该包括在输出中的指定类的方差。

Netezza 线性回归

类型为 netezzalineregressionnode 的节点的可用属性如下所示:

表 10. netezzalineregressionnode 属性
netezzalineregressionnode 属性 属性说明
use_svd 标志 如果为 true,则使用“奇异值分解”矩阵代替原始矩阵,以便提高速度和数字准确性。
include_intercept 标志 如果为 true(缺省值),那么提高解的整体准确性。
calculate_model_diagnostics 标志 如果为 true,则对模型计算诊断信息。

Netezza 时间序列

类型为 netezzatimeseriesnode 的节点的可用属性如下所示:

表 11. netezzatimeseriesnode 属性
netezzatimeseriesnode 属性 属性说明
time_points 字段 此输入字段包含时间序列的日期值或时间值。
time_series_ids 字段 此输入字段包含时间序列标识;在输入包含多个时间序列时使用。
model_table 字段 这是用于存储 Netezza 时间序列模型的数据库表。
description_table 字段 这是包含时间序列名称和描述的输入表的名称。
seasonal_adjustment_table 字段 这是一个输出表的名称,该表用于存储指数平滑或季节性趋势分解算法所计算的按季度调整值。
algorithm_name SpectralAnalysisspectral ExponentialSmoothingesmoothing ARIMA SeasonalTrendDecompositionstd 这是用于时间序列模型的算法。
trend_name N A DA M DM 指数平滑法的趋势类型: N -none A -加法 DA -阻尼加法 M -乘法 DM -阻尼乘法
seasonality_type N A M 指数平滑法的季节性类型: N -none A -加法 M -乘法
interpolation_method linear cubicspline exponentialspline 要使用的插值方法。
timerange_setting SD SP 要使用的时间范围的设置: SD -系统确定的 (使用完整范围的时间序列数据) SP -用户通过 earliest_timelatest_time 指定
earliest_time integer 日期 时间 时间戳记 开始值和结束值(如果 timerange_settingSP)。 格式应遵循 time_points 值。 例如,如果 time_points 字段包含日期,那么此值也应该是日期。 示例: set NZ_DT1.timerange_setting = 'SP' set NZ_DT1.earliest_time = '1921-01-01' set NZ_DT1.latest_time = '2121-01-01'
latest_time
arima_setting SD SP ARIMA 算法的设置 (仅当 algorithm_name 设置为 ARIMA时使用): SD -系统确定的 SP -用户指定的 If arima_setting = SP,请使用以下参数来设置季节性值和非季节性值。 示例 (仅限非季节性): set NZ_DT1.algorithm_name = 'arima' set NZ_DT1.arima_setting = 'SP' set NZ_DT1.p_symbol = 'lesseq' set NZ_DT1.p = '4' set NZ_DT1.d_symbol = 'lesseq' set NZ_DT1.d = '2' set NZ_DT1.q_symbol = 'lesseq' set NZ_DT1.q = '4'
p_symbol less eq lesseq ARIMA-参数 pdqspsdsq的运算符: less -小于 eq -等于 lesseq -小于或等于
d_symbol
q_symbol
sp_symbol
sd_symbol
sq_symbol
p 整数 ARIMA - 自动关联的非季节性程度。
q 整数 ARIMA - 非季节性派生值。
d 整数 ARIMA - 模型中的移动平均值移动平均值阶的非季节性数目。
sp 整数 ARIMA - 自动关联的季节性程度。
sq 整数 ARIMA - 季节性派生值。
sd 整数 ARIMA - 模型中的移动平均值移动平均值阶的季节性数目。
advanced_setting SD SP 确定高级设置的处理方式: SD -系统确定的 SP -用户通过 periodunits_periodforecast_setting指定。 示例: set NZ_DT1.advanced_setting = 'SP' set NZ_DT1.period = 5 set NZ_DT1.units_period = 'd'
period 整数 季节周期的长度,与 units_period 一起指定。 不适用于谱分析。
units_period ms s min h d wk q y 表示 period 的单位: ms -毫秒 s -秒 min -分钟 h -小时 d -天 wk -周 q -季度 y -年例如,对于每周时间序列,请使用 1 for periodwk for units_period
forecast_setting forecasthorizon forecasttimes 指定如何进行预测。
forecast_horizon integer 日期 时间 时间戳记 如果 forecast_setting = forecasthorizon,那么指定预测结束点值。 格式应遵循 time_points 值。 例如,如果 time_points 字段包含日期,那么此值也应该是日期。
forecast_times integer 日期 时间 时间戳记 如果 forecast_setting = forecasttimes,那么指定用于进行预测的值。 格式应遵循 time_points 值。 例如,如果 time_points 字段包含日期,那么此值也应该是日期。
include_history 标志 指示是否将历史值包括在输出中。
include_interpolated_values 标志 指示是否将内插值包括在输出中。 如果 include_historyfalse,则不适用。

Netezza 广义线性

类型为 netezzaglmnode 的节点的可用属性如下所示:

表 12. netezzaglmnode 属性
netezzaglmnode 属性 属性说明
dist_family bernoulli gaussian poisson negativebinomial wald gamma 分布类型;缺省值为 bernoulli
dist_params 成员 要使用的分布参数值。 仅当 distributionNegativebinomial 时才适用。
trials 整数 仅当 distributionBinomial 时才适用。 当目标响应为发生在一组试验中的事件数时,target 字段包含事件数,trials 字段包含试验数。
model_table 字段 这是用于存储 Netezza 广义线性模型的数据库表。
maxit 整数 算法应执行的最大迭代次数;缺省值为 20。
eps 成员 指定最大误差值(以科学记数法表示),达到此值后,算法应停止查找最佳匹配模型。 缺省值为 -3,这表示 1E-3,即 0.001。
tol 成员 设置数值(用科学表示法),低于此值的所有误差均被视为 0 值。 缺省值为 -7,表示误差值若低于 1E-7 (或 0.0000001),则被视为不显著。
link_func identity inverse invnegative invsquare sqrt power oddspower log clog loglog cloglog logit probit gaussit cauchit canbinom cangeom cannegbinom 要使用的联接函数;缺省值为 logit
link_params 成员 要使用的关联函数参数值。 仅当 link_functionpoweroddspower 时才适用。
interaction
[[[colnames1],[levels1]],
[[colnames2],[levels2]],
...,[[colnamesN],[levelsN]],]
指定字段之间的交互。 colnames 是输入字段的列表,而 level 对于每个字段始终为 0。 示例:
[[["K","BP","Sex","K"],[0,0,0,0]],
[["Age","Na"],[0,0]]]
intercept 标志 如果为 true,则在模型中包括截距。