拡張の出力ノードの「シンタックス」タブ

シンタックスのタイプ (R または Python for Spark) を選択します。 詳しくは、以下のセクションを参照してください。シンタックスの準備ができたら、「実行」をクリックして、拡張の出力ノードを実行できます。出力オブジェクトは出力マネージャーに追加されるか、オプションで、「出力」タブの「ファイル名」フィールドで指定されたファイルに追加されます。

R シンタックス

「R シンタックス」。データ分析用のカスタムの R スクリプト・シンタックスを、このフィールドに入力するか、貼り付けることができます。

「フラグ型フィールドの変換」。フラグ型フィールドの処理方法を指定します。「文字列を因子に、整数および実数を倍精度に」および「論理値 (真、偽)」の 2 つのオプションがあります。「論理値 (真、偽)」を選択した場合、フラグ型フィールドの元の値は失われます。例えば、フィールドに「Male」および「Female」という値がある場合、これらの値は「真」および「偽」に変更されます。

「欠損値を R の欠損値 (NA) に変換」。選択すると、欠損値はすべて、R の NA 値に変換されます。R では、欠損値の識別に値 NA が使用されます。使用する R 関数によっては、データに NA が含まれていた場合の関数の動作を制御するために使用される引数が含まれている場合があります。例えば、関数によって NA を含むレコードを自動的に除外することを選択できる場合があります。このオプションが選択されない場合、すべての欠損値はそのまま R に渡されます。これらの欠損値は R スクリプトの実行時にエラーの原因となる可能性があります。

「時間帯を考慮した特殊な制御で日時フィールドを R のクラスに変換」。 選択すると、日付形式または日付/時刻形式の変数が R の日付/時刻形式に変換されます。次のいずれかのオプションを選択する必要があります。
  • 「R POSIXct」。日付形式または日付/時刻形式の変数が R の POSIXctオブジェクトに変換されます。
  • 「R POSIXlt (リスト)」。日付形式または日付/時刻形式の変数が R の POSIXltオブジェクトに変換されます。
注: POSIX 形式は、拡張オプションです。これらのオプションは、ご使用の R スクリプトで、これらの形式を必要とする方法で日付/時刻フィールドを処理するように指定している場合にのみ使用してください。POSIX 形式は、時刻形式の変数には適用されません。

Python シンタックス

「Python シンタックス」。データ分析用のカスタムの Python スクリプト・シンタックスを、このフィールドに入力するか、貼り付けることができます。Python for Spark について詳しくは、Python for Spark、およびPython for Sparkを使用したスクリプトを参照してください。