Netezza 建模节点属性
IBM Netezza 数据库建模节点的公共属性如下所示。
| 公共 Netezza 节点属性 | 值 | 属性说明 |
|---|---|---|
custom_fields |
标志 | 如果为 true,则允许您为当前节点指定目标、输入和其他字段。 如果为 false,则使用来自上游类型节点的当前设置。 |
inputs |
[field1 ... fieldN] | 模型所使用的输入或预测变量字段。 |
target |
字段 | 目标字段(连续或分类)。 |
record_id |
字段 | 要用作唯一记录标识的字段。 |
use_upstream_connection |
标志 | 如果为 true(缺省),那么连接详细信息在上游节点中指定。 在指定了 move_data_to_connection 时不使用。 |
move_data_connection |
标志 | 如果为 true,则将数据移动到由 connection 指定的数据库。 在指定了 use_upstream_connection 时不使用。 |
connection |
结构化 | 这是用于存储模型的 Netezza 数据库的连接字符串。 格式为 ['odbc' '<dsn>' '<username>' '<psw>' '<catname>'
'<conn_attribs>' [true|false]] 的结构化属性,其中: <dsn> 是数据源名称 <username> , <psw> 是数据库的用户名和密码 <catname> 是目录名称 <conn_attribs> 是连接属性 true | false 指示是否需要密码。 |
table_name |
string | 这是用于存储模型的数据库表的名称。 |
use_model_name |
标志 | 如果为 true,使用由 model_name 指定的名称作为模型名称,否则采用系统创建的模型名称。 |
model_name |
string | 新模型的定制名称。 |
include_input_fields |
标志 | 如果为 true,向下游传递所有输入字段,否则仅传递模型产生的 record_id 和字段。 |
Netezza 决策树
类型为 netezzadectreenode 的节点的可用属性如下所示:
netezzadectreenode 属性 |
值 | 属性说明 |
|---|---|---|
impurity_measure |
Entropy Gini |
对杂质的测量,用于评估树的最佳拆分位置。 |
max_tree_depth |
整数 | 树可以增长到的最大级别数。 缺省值为 62(最大可能值)。 |
min_improvement_splits |
成员 | 进行分割前必须满足的最低杂质改进。 缺省值为 0.01。 |
min_instances_split |
整数 | 可以进行分割前余下的最小未分割记录数。 缺省值为 2(最小可能值)。 |
weights |
结构化 | 各个类的相对权重。 以下格式的结构化属性: set :netezza_dectree.weights = [[drugA 0.3][drugB 0.6]] 缺省值是所有类的权重 1。 |
pruning_measure |
Acc wAcc |
缺省值为 Acc(准确性)。 如果要在应用修剪时将类权重考虑在内,可使用 wAcc(加权精确度)替代。 |
prune_tree_options |
allTrainingDatauseOtherTable |
缺省情况下,使用 allTrainingData 来估计模型精确度。 使用
partitionTrainingData 来指定要使用训练数据的百分比,或 useOtherTable 来使用源自指定数据库表的训练数据集。 |
perc_training_data |
成员 | 如果 prune_tree_options 设置为 partitionTrainingData,则指定用于训练的数据所占的百分比。 |
prune_seed |
整数 | 在 prune_tree_options 设置为 partitionTrainingData 时,用于重复分析结果的随机种子,缺省值是 1。 |
pruning_table |
string | 这是用于估计模型精确度的单独修剪数据集的表名称。 |
compute_probabilities |
标志 | 如果为 true,那么将生成置信度级别(概率)字段以及预测字段。 |
Netezza K-Means
类型为 netezzakmeansnode 的节点的可用属性如下所示:
netezzakmeansnode 属性 |
值 | 属性说明 |
|---|---|---|
distance_measure |
Euclidean Manhattan Canberra maximum |
这是用于对数据点之间的距离进行测量的方法。 |
num_clusters |
整数 | 要创建的聚类数;缺省值为 3。 |
max_iterations |
整数 | 算法迭代次数,模型训练在此之后停止;缺省值为 5。 |
rand_seed |
整数 | 这是用于复制分析结果的随机种子;缺省值为 12345。 |
Netezza 贝叶斯网络
类型为 netezzabayesnode 的节点的可用属性如下所示:
netezzabayesnode 属性 |
值 | 属性说明 |
|---|---|---|
base_index |
整数 | 对第一个输入字段指定的数字标识,用于进行内部管理;缺省值为 777。 |
sample_size |
整数 | 属性数目非常大时的采样大小;缺省值为 10,000。 |
display_additional_information |
标志 | 如果为 true,则在消息对话框中显示额外的进度信息。 |
type_of_prediction |
best neighbors nn-neighbors |
要使用的预测算法类型:best(最相关的相邻值)、neighbors(相邻值的加权预测)或 nn-neighbors(非空相邻值)。 |
Netezza 朴素贝叶斯
类型为 netezzanaivebayesnode 的节点的可用属性如下所示:
netezzanaivebayesnode 属性 |
值 | 属性说明 |
|---|---|---|
compute_probabilities |
标志 | 如果为 true,那么将生成置信度级别(概率)字段以及预测字段。 |
use_m_estimation |
标志 | 如果为 true,则使用 m-estimation 技术以避免估算期间的零概率。 |
Netezza KNN
类型为 netezzaknnnode 的节点的可用属性如下所示:
netezzaknnnode 属性 |
值 | 属性说明 |
|---|---|---|
weights |
结构化 | 这是用于对各个类指定权重的结构化属性。 示例:set :netezzaknnnode.weights = [[drugA 0.3][drugB 0.6]] |
distance_measure |
Euclidean Manhattan Canberra Maximum |
这是用于对数据点之间的距离进行测量的方法。 |
num_nearest_neighbors |
整数 | 特定观测值的最近邻元素数;缺省值为 3。 |
standardize_measurements |
标志 | 如果为 true,那么在计算距离值之前,对连续输入字段的测量值进行标准化。 |
use_coresets |
标志 | 如果为 true,则对大型数据集使用核心集采样以提高计算速度。 |
Netezza 分裂式聚类
类型为 netezzadivclusternode 的节点的可用属性如下所示:
netezzadivclusternode 属性 |
值 | 属性说明 |
|---|---|---|
distance_measure |
Euclidean Manhattan Canberra Maximum |
这是用于对数据点之间的距离进行测量的方法。 |
max_iterations |
整数 | 在模型训练停止前执行的最大算法迭代次数;缺省值为 5。 |
max_tree_depth |
整数 | 可以将数据集拆分为的最大级别数;缺省值为 3。 |
rand_seed |
整数 | 随机种子,用于复制分析;缺省值为 12345。 |
min_instances_split |
整数 | 可以拆分的最小记录数,缺省值为 5。 |
level |
整数 | 要将记录评分到的层次结构级别;缺省值为 -1。 |
Netezza PCA
类型为 netezzapcanode 的节点的可用属性如下所示:
netezzapcanode 属性 |
值 | 属性说明 |
|---|---|---|
center_data |
标志 | 如果为 true(缺省值),那么先执行数据集中(也称为“均值消去法”),然后再执行分析。 |
perform_data_scaling |
标志 | 如果为 true,那么在分析前执行数据换算。 这样做可以减低以不同单位测量不同变量时的分析任意性。 |
force_eigensolve |
标志 | 如果为 true,则使用不太准确但较快的方法来查找主成份。 |
pc_number |
整数 | 要将数据集精简到的主成份数;缺省值为 1。 |
Netezza 回归树
类型为 netezzaregtreenode 的节点的可用属性如下所示:
netezzaregtreenode 属性 |
值 | 属性说明 |
|---|---|---|
max_tree_depth |
整数 | 树在根节点下可以增长到的最大级别数;缺省值为 10。 |
split_evaluation_measure |
Variance |
类杂质测量,用于评估分割树的最佳位置,缺省值(当前唯一选项)是 Variance。 |
min_improvement_splits |
成员 | 在树中进行新拆分前要将杂质减少到的最小数量。 |
min_instances_split |
整数 | 可以拆分的最小记录数。 |
pruning_measure |
mse r2 pearson spearman |
要使用的修剪方法 |
prune_tree_options |
allTrainingData partitionTrainingData useOtherTable |
缺省情况下,使用 allTrainingData 来估计模型精确度。 使用
partitionTrainingData 来指定要使用训练数据的百分比,或 useOtherTable 来使用源自指定数据库表的训练数据集。 |
perc_training_data |
成员 | 如果 prune_tree_options 设置为 PercTrainingData,则指定用于训练的数据所占的百分比。 |
prune_seed |
整数 | 在 prune_tree_options 设置为 PercTrainingData 时,用于重复分析结果的随机种子,缺省值是 1。 |
pruning_table |
string | 这是用于估计模型精确度的单独修剪数据集的表名称。 |
compute_probabilities |
标志 | 如果为 true,则指定应该包括在输出中的指定类的方差。 |
Netezza 线性回归
类型为 netezzalineregressionnode 的节点的可用属性如下所示:
netezzalineregressionnode 属性 |
值 | 属性说明 |
|---|---|---|
use_svd |
标志 | 如果为 true,则使用“奇异值分解”矩阵代替原始矩阵,以便提高速度和数字准确性。 |
include_intercept |
标志 | 如果为 true(缺省值),那么提高解的整体准确性。 |
calculate_model_diagnostics |
标志 | 如果为 true,则对模型计算诊断信息。 |
Netezza 时间序列
类型为 netezzatimeseriesnode 的节点的可用属性如下所示:
netezzatimeseriesnode 属性 |
值 | 属性说明 |
|---|---|---|
time_points |
字段 | 此输入字段包含时间序列的日期值或时间值。 |
time_series_ids |
字段 | 此输入字段包含时间序列标识;在输入包含多个时间序列时使用。 |
model_table |
字段 | 这是用于存储 Netezza 时间序列模型的数据库表。 |
description_table |
字段 | 这是包含时间序列名称和描述的输入表的名称。 |
seasonal_adjustment_table |
字段 | 这是一个输出表的名称,该表用于存储指数平滑或季节性趋势分解算法所计算的按季度调整值。 |
algorithm_name |
SpectralAnalysis , spectral ExponentialSmoothing , esmoothing ARIMA SeasonalTrendDecomposition 或 std |
这是用于时间序列模型的算法。 |
trend_name |
N A DA M DM |
指数平滑法的趋势类型: N -none A -加法 DA -阻尼加法 M -乘法 DM -阻尼乘法 |
seasonality_type |
N A M |
指数平滑法的季节性类型: N -none A -加法 M -乘法 |
interpolation_method |
linear cubicspline exponentialspline |
要使用的插值方法。 |
timerange_setting |
SD SP |
要使用的时间范围的设置: SD -系统确定的 (使用完整范围的时间序列数据) SP -用户通过 earliest_time 和 latest_time 指定 |
earliest_time |
integer 日期 时间 时间戳记 | 开始值和结束值(如果 timerange_setting 为
SP)。 格式应遵循
time_points 值。 例如,如果 time_points 字段包含日期,那么此值也应该是日期。 示例: set NZ_DT1.timerange_setting = 'SP' set NZ_DT1.earliest_time = '1921-01-01' set NZ_DT1.latest_time = '2121-01-01' |
latest_time |
||
arima_setting |
SD SP |
ARIMA 算法的设置 (仅当 algorithm_name 设置为 ARIMA时使用): SD -系统确定的 SP -用户指定的 If arima_setting = SP,请使用以下参数来设置季节性值和非季节性值。 示例 (仅限非季节性): set NZ_DT1.algorithm_name = 'arima' set NZ_DT1.arima_setting = 'SP' set NZ_DT1.p_symbol = 'lesseq' set NZ_DT1.p = '4' set NZ_DT1.d_symbol = 'lesseq' set NZ_DT1.d = '2' set NZ_DT1.q_symbol = 'lesseq' set NZ_DT1.q = '4' |
p_symbol |
less eq lesseq |
ARIMA-参数 p, d, q, sp, sd和 sq的运算符: less -小于 eq -等于 lesseq -小于或等于 |
d_symbol |
||
q_symbol |
||
sp_symbol |
||
sd_symbol |
||
sq_symbol |
||
p |
整数 | ARIMA - 自动关联的非季节性程度。 |
q |
整数 | ARIMA - 非季节性派生值。 |
d |
整数 | ARIMA - 模型中的移动平均值移动平均值阶的非季节性数目。 |
sp |
整数 | ARIMA - 自动关联的季节性程度。 |
sq |
整数 | ARIMA - 季节性派生值。 |
sd |
整数 | ARIMA - 模型中的移动平均值移动平均值阶的季节性数目。 |
advanced_setting |
SD SP |
确定高级设置的处理方式: SD -系统确定的 SP -用户通过 period , units_period 和 forecast_setting指定。 示例: set NZ_DT1.advanced_setting = 'SP' set NZ_DT1.period = 5 set NZ_DT1.units_period = 'd' |
period |
整数 | 季节周期的长度,与 units_period 一起指定。 不适用于谱分析。 |
units_period |
ms s min h d wk q y |
表示 period 的单位: ms -毫秒 s -秒 min -分钟 h -小时 d -天 wk -周 q -季度 y -年例如,对于每周时间序列,请使用 1 for period 和 wk for units_period。 |
forecast_setting |
forecasthorizon forecasttimes |
指定如何进行预测。 |
forecast_horizon |
integer 日期 时间 时间戳记 | 如果 forecast_setting = forecasthorizon,那么指定预测结束点值。 格式应遵循
time_points 值。 例如,如果 time_points 字段包含日期,那么此值也应该是日期。 |
forecast_times |
integer 日期 时间 时间戳记 | 如果 forecast_setting = forecasttimes,那么指定用于进行预测的值。 格式应遵循
time_points 值。 例如,如果 time_points 字段包含日期,那么此值也应该是日期。 |
include_history |
标志 | 指示是否将历史值包括在输出中。 |
include_interpolated_values |
标志 | 指示是否将内插值包括在输出中。 如果 include_history 为 false,则不适用。 |
Netezza 广义线性
类型为 netezzaglmnode 的节点的可用属性如下所示:
netezzaglmnode 属性 |
值 | 属性说明 |
|---|---|---|
dist_family |
bernoulli gaussian poisson negativebinomial wald gamma |
分布类型;缺省值为 bernoulli。 |
dist_params |
成员 | 要使用的分布参数值。 仅当 distribution 为 Negativebinomial 时才适用。 |
trials |
整数 | 仅当 distribution 为 Binomial 时才适用。 当目标响应为发生在一组试验中的事件数时,target
字段包含事件数,trials 字段包含试验数。 |
model_table |
字段 | 这是用于存储 Netezza 广义线性模型的数据库表。 |
maxit |
整数 | 算法应执行的最大迭代次数;缺省值为 20。 |
eps |
成员 | 指定最大误差值(以科学记数法表示),达到此值后,算法应停止查找最佳匹配模型。 缺省值为 -3,这表示 1E-3,即 0.001。 |
tol |
成员 | 设置数值(用科学表示法),低于此值的所有误差均被视为 0 值。 缺省值为 -7,表示误差值若低于 1E-7 (或 0.0000001),则被视为不显著。 |
link_func |
identity inverse invnegative invsquare sqrt power oddspower log clog loglog cloglog logit probit gaussit cauchit canbinom cangeom cannegbinom |
要使用的联接函数;缺省值为 logit。 |
link_params |
成员 | 要使用的关联函数参数值。 仅当 link_function 为
power 或 oddspower 时才适用。 |
interaction |
[[[colnames1],[levels1]],
[[colnames2],[levels2]], ...,[[colnamesN],[levelsN]],] |
指定字段之间的交互。 colnames 是输入字段的列表,而 level 对于每个字段始终为 0。 示例:
|
intercept |
标志 | 如果为 true,则在模型中包括截距。 |