t-SNE ノードのエキスパート オプション

t-SNE ノードにどちらのオプションを設定するかに応じて、「シンプル」モードまたは「エキスパート」モードを選択します。

視覚化タイプ: 「2 次元」または「3 次元」を選択して、2 次元または 3 次元のどちらでグラフを描画するかを指定します。

方法: 「Barnes Hut」または「正確確率」を選択します。デフォルトでは、勾配計算アルゴリズムは、正確確率メソッドより確実に速く実行される Barnes-Hut 近似を使用します。Barnes-Hut 近似により、t-SNE 技術を実際の大規模データ セットに適用できます。正確確率アルゴリズムは、最近隣のエラーを回避する上で、より優れています。

初期化 (Init.): 埋め込みの初期化について、「無作為」または「PCA」を選択します。

対象フィールド: 出力グラフのカラー マップとして表示する対象フィールドを選択します。ここで対象フィールドを指定しないと、グラフには 1 色が使用されます。

最適化

Perplexity: Perplexity は、他の多様体学習アルゴリズムで使用される最近隣の数に関連します。通常、データ セットが大きいほど、必要とされる Perplexity も大きくなります。5 から 50 の間の値を選択することを考慮してください。デフォルトは 30、範囲は 2 から 9999999 です。

Early exaggeration: この設定は、埋め込み空間における、元の空間の自然クラスターの気密度、およびクラスター間の間隔を制御します。デフォルトは 12、範囲は 2 から 9999999 です。

学習率: 学習率が高すぎる場合、データは、すべてのポイントがその最近傍からほぼ等距離にある 1 つの「ボール」のように表示されることがあります。学習率が低すぎる場合、大部分のポイントは、圧縮された厚い雲のように表示されることがあります。外れ値はほとんどなくなります。誤った局所最小値でコスト関数が停止している場合は、学習率を高くすると改善することがあります。デフォルトは 200、範囲は 0 から 9999999 です。

最大反復: 最適化の最大反復数。デフォルトは 1000、範囲は 250 から 9999999 です。

角サイズ: あるポイントから測定した遠方ノードの角サイズ。0 から 1 の間の値を入力します。デフォルトは 0.5 です。

ランダム シード

ランダム シードの設定: 乱数発生ルーチンによって使用されるシードを生成するには、このオプションを選択し、「生成」をクリックします。

最適化の中断条件

進捗のない最大反復: 最適化を中断するまでに実行する、進捗のない反復の最大数。Early exaggeration を伴う 250 回の初期反復の後に使用されます。進捗は 50 回の反復ごとにしか検査されないため、この値は次の 50 の倍数に丸められることに注意してください。デフォルトは 300、範囲は 0 から 9999999 です。

最小勾配ノルム (Min gradient norm): 勾配ノルムがこの最小しきい値を下回る場合、最適化は中断されます。デフォルトは 1.0E-7 です。

メトリック。 機能配列内のインスタンス間の距離を計算するときに使用するメトリック。メトリックが文字列である場合、メトリックは、scipy.spatial.distance.pdist のメトリック パラメータとして許可されているオプションの 1 つであるか、pairwise.PAIRWISE_DISTANCE_FUNCTIONS にリストされているメトリックである必要があります。使用可能ないずれかのメトリック タイプを選択します。デフォルトは euclidean です。

レコード数が次の値より大きい場合: 大規模データ・セットの作図の手法を指定します。最大データ・セット・サイズを使用するか、またはデフォルト値 (2,000 ポイント) を使用することができます。「ビン」 または 「サンプル」 を選択すると、大きいデータ・セットに対するパフォーマンスが向上します。代わりに、「すべてのデータを使用」 を選択して、すべてのデータ・ポイントを作図することもできます。ただし、この場合ソフトウェアのパフォーマンスが大幅に低下する可能性があります。
  • ビン: データ・セットに格納されているレコード数が、指定した数より大きい場合に、分割を有効にします。分割を行うと、グラフが細かいグリッドに分割されてから、作図や各グリッド・セルに現れる接続数のカウントが実際に行われます。最終的なグラフでは、ビン重心 (ビン中のすべての接続の位置の平均) でセルごとに 1 つの接続が作図されます。
  • サンプリング。ここに指定した数のレコードまで、無作為にデータのサンプリングを行います。
次の表に、SPSS® Modeler t-SNE ノードのダイアログの「エキスパート」タブの設定と、Python t-SNE ライブラリーのパラメータとの間の関係を示します。
表 1. ノードのプロパティーと Python ライブラリーのパラメータのマッピング
SPSS Modeler の設定 スクリプト名 (プロパティー名) Python t-SNE パラメータ
モード mode_type  
視覚化タイプ n_components n_components
メソッド method method
埋め込みの初期化 (Initialization of embedding) init init
対象 target_field target_field
Perplexity perplexity perplexity
Early exaggeration early_exaggeration early_exaggeration
学習率 learning_rate learning_rate
最大反復 n_iter n_iter
角サイズ angle angle
ランダム シードの設定 enable_random_seed
ランダム シード random_seed random_state
進捗のない最大反復 n_iter_without_progress n_iter_without_progress
最小勾配ノルム (Min gradient norm) min_grad_norm min_grad_norm
複数の Perplexity で t-SNE を実行 isGridSearch