IDAX.GLM - 一般化線形モデル (GLM) の作成

このストアード・プロシージャーを使用して、GLM モデルを同期的または非同期的に作成します。

許可

ステートメントの許可 ID が保持する特権に、IDAX_USER ロールが含まれている必要があります。

構文

IDAX.GLM(in parameter_string varchar(32672), in synchronous boolean default true)

パラメーターの説明

parameter_string
コンマで区切られた <parameter>=<value> 項目のペアを含む必須の 1 ストリング・パラメーター。
データ型: VARCHAR(32672)
以下のリストに、パラメーター値を示します。
model
必須。
作成される一般化線形モデルの名前。
データ型: VARCHAR(64)
intable
必須。
入力表の名前。
データ型: VARCHAR(128)
id
必須。
ユニーク・インスタンス ID を識別する入力表列。
データ型: VARCHAR(128)
target
値を予測する入力表列の列の名前。
数値のターゲット列のみが受け入れられます。
データ型: NVARCHAR(128)
incolumn
オプション。
特定のプロパティーが入っている入力表の列。列はセミコロン (;) で区切ります。
各列の後に、以下のうち 1 つ以上のプロパティーが続きます。
  • 名義型 (「:nom」) または連続型 (「:cont」)。デフォルトでは、数値型は連続型に、それ以外の型は名義型になります。
  • ロール「:id」、「:target」、「:input」、または「:ignore」。
このパラメーターを指定しない場合、入力表のすべての列にデフォルトのプロパティーが使用されます。
デフォルト: なし
データ型: VARCHAR(ANY)
coldeftype
オプション。
入力表列のデフォルトの型。
使用できる値は「nom」および「cont」です。
このパラメーターを指定しない場合、すべての数値列は連続型列で、それ以外の列はすべて名義型列になります。
デフォルト: なし
データ型: VARCHAR(ANY)
coldefrole
オプション。
入力表列のデフォルトのロール。
使用できる値は「input」および「ignore」です。
このパラメーターを指定しない場合、すべての列が入力列になります。
デフォルト: input
データ型: VARCHAR(ANY)
intercept
オプション。
モデルの作成が切片値ありのどちらで行われるかを指示するフラグ。
使用できる値は「true」および「false」です。
デフォルト: true
データ型: VARCHAR(ANY)
effect
オプション。
入力列間で許可される効果または相互作用の定義。
効果または相互作用は、セミコロン (;) で区切られた因子または共変量のリストです。カテゴリー列はモデル内の因子として使用され、連続型フィールドは共変量として使用されます。
デフォルトでは、すべての入力列は独立していると見なされます。相互作用はありません。
因子と共変量を星印 (*) で結合し、モデルに入れ子項目を作成できます。入れ子項目は、別の因子のレベルと相互作用しない因子または共変量の値の効果をモデリングするために使用できます。例えば、あるスーパー・チェーンが、いくつかの店舗で顧客の消費傾向を調査するとします。1 人の顧客が頻繁に利用するのは、これらの店舗のうちの 1 つだけであるため、顧客 効果は店舗の場所 効果の入れ子になっていると言えます。
さらに、入れ子項目に、同一の共変量が関わる多項式の項などの相互作用効果を含めたり、複数レベルの入れ子を追加したりすることができます。
入れ子項目には、次の制限があります。
  • 1 つの相互作用内の因子はすべて一意である必要があります。 したがって、A が因子の場合、A*A の指定は無効です。
  • 1 つの入れ子効果内のすべての因子は一意である必要があります。したがって、A が因子の場合、A(A) の指定は無効です。
  • 共変量内で効果を入れ子にすることはできません。したがって、A が因子で、X が共変量の場合、A(X) の指定は無効です。
デフォルト: c1; c2; c3; ...., cn
ここで、 c1, c2, c3, ..cn は入力列です。
データ型: VARCHAR(ANY)
family
オプション。
分布のタイプ。
使用できる値は、bernoulli、gaussian、poisson、binomial、negativebinomial、wald (inversegaussian)、および gamma です。
デフォルト: bernoulli
データ型: VARCHAR(ANY)
link
オプション。
リンク関数のタイプ。
使用できる値は「clog」、「cloglog」、「gaussit」、「identity」、「log」、「logit」、「oddspower」、「power」、「probit」、および「sqrt」です。
デフォルト: logit
データ型: VARCHAR(ANY)
link_param
オプション。
リンク「oddspower」および「power」に使用される追加のパラメーター。
値の範囲は、使用されるリンク関数によって異なります。
デフォルト: 1
データ型: DOUBLE
maxit
オプション。
反復の最大数。
デフォルト: 20
データ型: INTEGER
tol
オプション。
線形式ソルバーが値をゼロと等しいと見なすタイミングの許容範囲。
デフォルト: 1e-7
データ型: DOUBLE
trials
二項分布のための試行回数が含まれる入力表の列。
分布族パラメーターの値が二項式の場合、このパラメーターは必須です。
それ以外の分布では、このパラメーターは無視されます。
デフォルト: ''
データ型: VARCHAR(ANY)
spark_partitions
オプション。
入力データを使用して作成される Spark パーティションの数。
この数によって、モデルの作成に使用される並列処理の度合いが決まります。
注: パーティションごとの行数が少なすぎると、結果のモデルが不正確になる可能性があります。小さい入力データ・セットの場合、デフォルト値でも大きすぎる可能性があります。したがって、より小さい値を明示的に設定してください。
デフォルト: 使用可能な CPU の数を 2 で除算した値。
データ型: INTEGER
synchronous
オプション。
GLM ストアード・プロシージャーの同期実行または非同期実行。
同期実行では、GLM ストアード・プロシージャーは、実行が完了するまで待機します。非同期実行では、GLM プロシージャーは実行依頼後すぐに戻ります。
非同期実行の GLM ストアード・プロシージャーの状況とサブミット ID を取得するには、GLM ストアード・プロシージャーの起動後に IDAX.APP_STATUS() ストアード・プロシージャーを呼び出します。
非同期実行の GLM ストアード・プロシージャーを取り消すには、GLM ストアード・プロシージャーの実行中に IDAX.CANCEL_APP() ストアード・プロシージャーを呼び出します。
デフォルト: true

戻される情報

このプロシージャーは SQL の結果を返しません。

CALL IDAX.GLM('model=adult_mdl, intable=adult_train, id=id, target=age, link=identity, family=gaussian');