可変長ファイル・ノードのオプションの設定

「可変長ファイル・ノード」ダイアログ・ボックスの「ファイル」タブでオプションを設定します。

ファイル ファイルの名前を指定します。ファイル名を入力するか、 省略符号ボタン (「...」) をクリックしてファイルを選択できます。ファイルを選択すると、ファイル パスが表示され、下のパネルに区切り文字付きでファイルの内容が表示されます。

データ・ソースから表示されたサンプル テキストは、次のコントロールを使用してコピー、貼り付けすることができます。EOL コメント文字およびユーザー指定の区切り文字。コピーと貼り付けには、それぞれ Ctrl-C および Ctrl-V を使用します。

ファイルからフィールド名を取得 デフォルトで選択されているこのオプションは、データ・ファイル中の最初の行を列のラベルとして取り扱います。最初の行が見出しではない場合は、このオプションを解除すると、データ・セット中の各フィールドにフィールド 1、フィールド 2 のような数字の付けられた一般名が与えられます。

フィールド数を指定: 各レコードのフィールドの数を指定します。レコードが改行文字で終了していれば、 フィールド数が自動的に検出されます。フィールド数を自分で設定することもできます。

ヘッダー文字をスキップ: 最初のレコードの先頭で無視する文字数を指定します。

EOL コメント文字: データ内で注釈を示す文字 (# や !など) を指定します。データ・ファイル内でこれらの文字がある場所から次の改行文字のある場所までは、すべて注釈になります。ただし、その改行文字は注釈に含まれずに無視されます。

前後のスペースを除去 : インポート時に文字列の前後のスペースを破棄する場合に選択します。

注: SQL プッシュバックを使用する文字列と使用しない文字列と比較すると、接尾空白を含むさまざまな結果を生成する場合があります。

不正な文字: データ入力から不正な文字を削除する場合に、「破棄」 を選択します。不正な文字を指定した記号 (1 文字だけ) で置換する場合は、「置換値」 を選択します。ヌル (0) 文字または指定されたエンコード方法に存在しない任意の文字が不正な文字になります。

エンコード: 使用するテキストのエンコード方法を指定します。サーバー・デフォルト、システム・デフォルト、UTF-8 から選択できます。

  • システム・デフォルトは、Windows のコントロール・パネル (分散モードで実行している場合はサーバー・コンピューター) で指定できます。
  • デフォルトは、「ストリーム・プロパティー」ダイアログ・ボックスで指定されます。

小数点記号 データ ソースで使用する小数点区切り文字の種類を選択します。「ストリームのデフォルト」 は、「ストリームのプロパティー」ダイアログ・ボックスの「オプション」タブで選択された文字です。これを使用しない場合は、「ピリオド (.)」 または 「カンマ (,)」 を選択すると、その文字を小数点区切り文字として、このダイアログ・ボックス中のすべてのデータを読み込みます。

行区切り文字は改行文字です フィールド区切りの代わりに、改行文字を行の区切り文字として使用するには、このオプションを選択します。例えば、行が折り返して表示される行に奇数の区切り文字がある場合役立つ場合があります。このオプションを選択した場合、「区切り文字」リストの 「改行」 は選択できません。

注: このオプションを選択した場合、データ行の末尾の空白値は除去されます。

区切り文字: このコントロール用に表示されたチェック・ボックスを使用して、カンマ (,) などの、ファイル内のフィールドの境界を定義する文字を指定できます。複数の区切り文字を使用するレコードの場合、「, |」のように複数の区切り文字を指定することもできます。デフォルトの区切り文字はカンマです。

注: カンマが「小数点記号」としても定義されている場合、ここでのデフォルト設定は使用されません。カンマが「フィールド区切り文字」「小数点記号」の両方である場合は、「フィールド区切り文字」リストで「その他」を選択してください。次に、手動で入力フィールドにカンマを指定します。

隣接する複数の空白文字を単一の区切り文字として認識する場合は、「複数の空白区切り文字を許可」を選択します。例えば、あるデータ値の後に 4 つのスペースが続き、その後に別のデータ値が続いている場合は、5 つのフィールドではなく、2 つのフィールドとして扱われます。

列およびデータ型についてスキャンする行 指定したデータ型をスキャンする行および列数を指定します。

自動的に日付と時間を認識します IBM® SPSS® Modeler がデータ項目を自動的に日付または時刻として認識できるようにするには、 このチェック ボックスを選択します。例えば、07-11-1965 などのエントリーを日付として識別し、02:35:58 を時刻として認識します。ただし、07111965 や 023558 のようなあいまいなエントリーは、数値の間に区切り文字がないため、整数として表示されます。

注: 以前のバージョンの IBM SPSS Modeler のデータ・ファイルを使用する場合に考えられるデータ上の問題を回避するために、13 より前のバージョンで保存された情報についてはデフォルトでこのボックスがオフになります。

大括弧をリストとして扱う このチェック ボックスを選択すると、 左大括弧と右大括弧で囲まれたデータにコンマや二重引用符などの区切り文字が含まれていても、 データが単一の値として扱われます。例えば、2 次元または 3 次元の地理空間データにおいて、 大括弧で囲んだ座標を単一のリスト項目として処理する場合が該当します。詳しくは、可変長ファイル ノードへの地理空間データのインポートを参照してください。

引用符。ドロップダウン・リストを使用して、インポート時に単一引用符および二重引用符をどのように取り扱うかを指定できます。すべての引用符を 「破棄」、フィールド値として引用符を 「テキストとして含める」、または 「ペアで破棄」 を選択して、引用符のペアを組み合わせて破棄することができます。対応する引用符がない場合は、エラー・メッセージが表示されます。「破棄」「ペアで破棄」 では、フィールド値を文字列として (引用符なしで) 保存します。
注: 「ペアで破棄」を使用すると、スペースは保持されます。 「破棄」を使用すると、引用符の内側と外側の後続スペースは除去されます (例えば、' " ab c" , "d ef " , " gh i " ' は、'ab c, d ef, gh i') となります。 「テキストとして含む」を使用すると、引用符は正規文字として扱われるため、前後のスペースは必然的に除去されます。

このダイアログ・ボックスで作業中は、任意の時点で 「リフレッシュ」 をクリックすると、フィールドがデータ・ソースから再ロードされます。これは、入力ノードへのデータ接続を変更したり、ダイアログ・ボックス内のタブ間を行き来して作業を行うような場合に役立ちます。