カテゴリー・コード

カテゴリー変数をコード化する場合は、コード化方式によっては不要な出力が発生したり、分析が不完全になったりすることがあるため、いくつかの注意点があります。職種に使用できるコード化方式を次の表に示します。

表 1. 職種の代替コード化方式
カテゴリー	A	B	C	D
実習生	1	1	5	1
販売員	2	2	6	5
管理者	3	7	7	3

一部のカテゴリー手続きでは、使用するすべての変数の範囲を定義する必要があります。この範囲を外れる値は欠損値として扱われます。最小カテゴリー値は常に 1です。最大カテゴリー値はユーザーが指定します。この値は、変数のカテゴリーの数ではなく、カテゴリーの最大値です。例えば上記の表では、方式 A の最大カテゴリー値が 3 で、方式 B の最大カテゴリー値が 7 ですが、どちらの方式も、同じ 3 つのカテゴリーをコード化します。

変数の範囲により、分析から除外されるカテゴリーが決まります。定義された範囲から外れたコードを持つカテゴリーが分析から除外されます。これは、カテゴリーを除外するための単純な方法ですが、不要な分析が発生する場合があります。最大カテゴリーの定義が誤っていると、分析から有効な カテゴリーが除外される場合があります。例えば方式 B の場合、最大カテゴリー値を 3 として定義すると、職種のカテゴリーが 1 から 3 までの範囲でコード化され、管理職 カテゴリーは欠損値として処理されます。実際には 3 としてコード化されているカテゴリーはないため、分析の第 3 のカテゴリーにはケースは含まれません。すべての管理職カテゴリーを除外したい場合、この分析は適切です。ただし、管理職を分析に含める場合は、最大カテゴリーを 7 と定義し、欠損値を 7 よりも大きい値としてコード化するか、1 未満の値としてコード化する必要があります。

名義変数または順序変数として処理される変数の場合、カテゴリーの範囲は結果に影響しません。名義変数の場合、重要なのはラベルだけで、そのラベルに関連付けられている値は重要ではありません。順序変数の場合、カテゴリーの順序は数量化されて保存されるため、カテゴリーの値自体は重要ではありません。同じカテゴリー順序になるコード化方式の場合、すべて同じ結果になります。例えば、職種を順序レベルで分析した場合、上記のテーブルの最初の 3 つの方式は機能的に同じになります。これは、これらのすべての方式で、カテゴリーの順序が同じになっているためです。一方、方式 D の場合、第 2 と第 3 のカテゴリーが反転され、他の方式とは異なる結果になります。

変数のコード化方式は、その多くが機能的に同じものですが、コードは手続きによって生成される出力量に影響するため、コード間の差が小さな方式のほうが適しています。 1 からユーザー定義の最大値までの範囲の値での範囲でコード化されたカテゴリーはすべて有効です。これらのいずれかのカテゴリーが空の場合、対応する数量化は、システム欠損値または 0 となります。どちらになるかは、手続きによって異なります。これらの割り当てはいずれも分析には影響しませんが、これらのカテゴリーに対して出力が生成されます。したがって、方式 B の場合、職種には、システム欠損値を受け取るカテゴリーが 4 つあります。方式 C にも、システム欠損値指標を受け取るカテゴリーが 4 つあります。一方、方式 A の場合、システム欠損値が数量化されることはありません。名義変数または順序変数として処理される変数のコードとして連続する整数を使用すると、結果に影響を与えることなく、出力を大幅に削減することができます。

数値変数として処理される変数のコード化方式は、順序変数の場合よりも制限が厳しくなります。これらの変数では、連続するカテゴリー間の差が重要になります。次の表に、年齢に対する 3 つのコード化方式を示します。

表 2. 年齢の代替コード化方式
カテゴリー	A	B	C
20	20	1	1
22	22	3	2
25 GB	25 GB	6	3
27	27	8	4

数値変数の再割り当てでは、カテゴリー間の差を保持する必要があります。順序値を使用することは、この差を保持するための方法の 1 つです。ただし、これにより、多数のカテゴリーでシステム欠損値指標が発生する場合があります。例えば、方式 A では、元の観測値を使用しています。コレスポンデンス分析を除くすべてのカテゴリー手続きでは、最大カテゴリー値は 27、最小カテゴリー値は 1 に設定されます。最初の 19 カテゴリーは空で、システム欠損値指標を受け取ります。最大カテゴリー値が 1 よりも大幅に大きく、1 から最大値までの範囲に空のカテゴリーが多数存在する場合、不要な出力が増えることになります。

再割り当てを実行すると、出力量を削減することができます。ただし、数値変数の場合は、「連続数への再割り当て」機能は使用しないでください。連続整数としてコード化すると、すべての連続カテゴリー間の差が 1 となるため、すべての数量化が均等間隔になります。そのため、変数を数値変数として処理する場合に重要となる計量特性が、連続整数への再割り当てによって破棄されることになります。例えば、上記のテーブルの方式 C は、年齢の自動再割り当てに対応しています。カテゴリー 22 と 25 の差は、3 から 1 に変更され、数量化では 1 が差として反映されます。

カテゴリー間の差を保持する代替値再割り当て方式では、すべてのカテゴリーから最小カテゴリー値を減算し、それぞれの差に 1 を加算します。方式 B は、この変換から算出された結果です。各カテゴリーから最小カテゴリー値である 20 が減算され、それぞれの結果に 1 が加算されています。変換後のコードの最小値は 1 で、差はすべて元のデータと同じになります。最大カテゴリー値は 8 になり、最初の 0 以外の数量化前の 0 数量化はすべて除外されます。ただし、方式 B から生成される、各カテゴリーに対応する 0 以外の数量化は、方式 A から生成される数量化と同じになります。