インスタンス化とは ?
インスタンス化は、データ・フィールドのストレージ・タイプや値などの情報を読み込む、または指定するプロセスです。システム リソースを最適化するために、インスタンス化を行う作業はユーザーが指示する必要があります。入力ノードの「データ型」タブでオプションを指定するか、またはデータ型ノードでデータ・ストリームを実行することによって、ソフトウェアに値の読み込みを指示します。
- 不明なデータ型のデータは、インスタンス化されていないデータとも呼ばれます。ストレージ・タイプと値が不明なデータは、 「データ型」タブの「尺度」列に「<デフォルト>」として表示されます。
- 文字列や数値など、フィールドのストレージに関する一部の情報が分かっている場合、そのデータは部分的にインスタンス化されていることになります。カテゴリー型や連続型は、部分的にインスタンス化された測定の尺度です。例えば、カテゴリーはフィールドがシンボル型であること (ただしそれが名義型、順序型またはフラグ型のどちらであるかわからないこと) を示します。
- データ型の詳細が、値も含めてすべて分かっている場合、この列には完全にインスタンス化された測定の尺度 (名義型、順序型、フラグ型、または連続型) が表示されます。なお、連続型 は、部分的にインスタンス化されているデータ・フィールドと、完全にインスタンス化されているデータ・フィールドの両方で使用されます。連続型データは、整数または実数になります。
データ型ノードでデータ・ストリームを実行中、インスタンス化されていないデータ型は、初期のデータ値を基にして、部分的にインスタンス化されます。すべてのデータがノードを通過すると、値が「<通過>」に設定されている場合を除き、それらのデータが完全にインスタンス化されます。実行が中断された場合は、データは部分的にインスタンス化されたままになります。「データ型」タブがインスタンス化されたら、ストリーム中のその時点でフィールドの値は固定化されます。つまり、ストリームを再実行した場合も、上流の変更は特定のフィールドの値に影響しないということです。新しいデータや追加の操作に基づいて値を変更または更新するには、「データ型」タブで編集するか、フィールドの値を「<読み込み>」または「<読み込み +>」に設定する必要があります。
インスタンス化する場合
一般的に、データ・セットがさほど大きくなく、後でストリームにフィールドを追加する予定がない場合は、入力ノードでインスタンス化するのが便利です。ただし、次の場合には、別のデータ型ノードでインスタンス化するほうが便利です。
- データ・セットが巨大で、ストリームがデータ型ノードの前でサブセットをフィルタリングしている場合。
- ストリーム中でデータをフィルタリングしている場合。
- ストリーム中でデータが結合または追加されている場合。
- 処理の過程で新しいデータ・フィールドが作成される場合。
注: データベース・エクスポート・ノードでデータをエクスポートする場合は、データが完全にインスタンス化されている必要があります。