カテゴリー・コード

カテゴリー変数をコード化する場合は、コード化方式によっては不要な出力が発生したり、分析が不完全になったりすることがあるため、いくつかの注意点があります。 職種 に使用できるコード化方式を次の表に示します。

表 1. 職種の代替コード化方式
カテゴリー A B C D
実習生 1 1 5 1
販売員 2 2 6 5
管理者 3 7 7 3

一部のカテゴリー手続きでは、使用するすべての変数の範囲を定義する必要があります。 この範囲を外れる値は欠損値として扱われます。 最小カテゴリー値は常に 1です。 最大カテゴリー値はユーザーが指定します。 この値は、変数のカテゴリーの ではなく、カテゴリーの最大 値です。 例えば上記の表では、方式 A の最大カテゴリー値が 3 で、方式 B の最大カテゴリー値が 7 ですが、どちらの方式も、同じ 3 つのカテゴリーをコード化します。

変数の範囲により、分析から除外されるカテゴリーが決まります。 定義された範囲から外れたコードを持つカテゴリーが分析から除外されます。 これは、カテゴリーを除外するための単純な方法ですが、不要な分析が発生する場合があります。 最大カテゴリーの定義が誤っていると、分析から有効な カテゴリーが除外される場合があります。 例えば方式 B の場合、最大カテゴリー値を 3 として定義すると、職種 のカテゴリーが 1 から 3 までの範囲でコード化され、管理職 カテゴリーは欠損値として処理されます。 実際には 3 としてコード化されているカテゴリーはないため、分析の第 3 のカテゴリーにはケースは含まれません。 すべての管理職カテゴリーを除外したい場合、この分析は適切です。 ただし、管理職を分析に含める場合は、最大カテゴリーを 7 と定義し、欠損値を 7 よりも大きい値としてコード化するか、1 未満の値としてコード化する必要があります。

名義変数または順序変数として処理される変数の場合、カテゴリーの範囲は結果に影響しません。 名義変数の場合、重要なのはラベルだけで、そのラベルに関連付けられている値は重要ではありません。 順序変数の場合、カテゴリーの順序は数量化されて保存されるため、カテゴリーの値自体は重要ではありません。 同じカテゴリー順序になるコード化方式の場合、すべて同じ結果になります。 例えば、職種 を順序レベルで分析した場合、上記のテーブルの最初の 3 つの方式は機能的に同じになります。 これは、これらのすべての方式で、カテゴリーの順序が同じになっているためです。 一方、方式 D の場合、第 2 と第 3 のカテゴリーが反転され、他の方式とは異なる結果になります。

変数のコード化方式は、その多くが機能的に同じものですが、コードは手続きによって生成される出力量に影響するため、コード間の差が小さな方式のほうが適しています。 1 からユーザー定義の最大値までの範囲の値での範囲でコード化されたカテゴリーはすべて有効です。 これらのいずれかのカテゴリーが空の場合、対応する数量化は、システム欠損値または 0 となります。どちらになるかは、手続きによって異なります。 これらの割り当てはいずれも分析には影響しませんが、これらのカテゴリーに対して出力が生成されます。 したがって、方式 B の場合、職種 には、システム欠損値を受け取るカテゴリーが 4 つあります。 方式 C にも、システム欠損値指標を受け取るカテゴリーが 4 つあります。 一方、方式 A の場合、システム欠損値が数量化されることはありません。 名義変数または順序変数として処理される変数のコードとして連続する整数を使用すると、結果に影響を与えることなく、出力を大幅に削減することができます。

数値変数として処理される変数のコード化方式は、順序変数の場合よりも制限が厳しくなります。 これらの変数では、連続するカテゴリー間の差が重要になります。 次の表に、年齢 に対する 3 つのコード化方式を示します。

表 2. 年齢の代替コード化方式
カテゴリー A B C
20 20 1 1
22 22 3 2
25 GB 25 GB 6 3
27 27 8 4

数値変数の再割り当てでは、カテゴリー間の差を保持する必要があります。 順序値を使用することは、この差を保持するための方法の 1 つです。 ただし、これにより、多数のカテゴリーでシステム欠損値指標が発生する場合があります。 例えば、方式 A では、元の観測値を使用しています。 コレスポンデンス分析を除くすべてのカテゴリー手続きでは、最大カテゴリー値は 27、最小カテゴリー値は 1 に設定されます。 最初の 19 カテゴリーは空で、システム欠損値指標を受け取ります。 最大カテゴリー値が 1 よりも大幅に大きく、1 から最大値までの範囲に空のカテゴリーが多数存在する場合、不要な出力が増えることになります。

再割り当てを実行すると、出力量を削減することができます。 ただし、数値変数の場合は、「連続数への再割り当て」機能は使用しないでください。 連続整数としてコード化すると、すべての連続カテゴリー間の差が 1 となるため、すべての数量化が均等間隔になります。 そのため、変数を数値変数として処理する場合に重要となる計量特性が、連続整数への再割り当てによって破棄されることになります。 例えば、上記のテーブルの方式 C は、年齢 の自動再割り当てに対応しています。 カテゴリー 22 と 25 の差は、3 から 1 に変更され、数量化では 1 が差として反映されます。

カテゴリー間の差を保持する代替値再割り当て方式では、すべてのカテゴリーから最小カテゴリー値を減算し、それぞれの差に 1 を加算します。 方式 B は、この変換から算出された結果です。 各カテゴリーから最小カテゴリー値である 20 が減算され、それぞれの結果に 1 が加算されています。 変換後のコードの最小値は 1 で、差はすべて元のデータと同じになります。 最大カテゴリー値は 8 になり、最初の 0 以外の数量化前の 0 数量化はすべて除外されます。 ただし、方式 B から生成される、各カテゴリーに対応する 0 以外の数量化は、方式 A から生成される数量化と同じになります。