各国語サポートのコード・セット

AIX® のグローバリゼーションは、すべてのコード・セットを任意の数の文字セットに分割できるという前提に基づいています。

コード・セットを理解するためには、 まず文字セットを理解する必要があります。 文字セットとは、文字を表すのに使用される値のエンコードに関係なく、 1 つ以上の言語の特定の必要に基づいて事前に定義された文字の集合です。 使用するコード・セットの選択は、ユーザーのデータ処理要件によって異なります。 特定の文字セットは、別のエンコード・スキームを使用してエンコードできます。 例えば、ASCII 文字セットでは、英語にある文字群を定義しています。 日本工業規格 (JIS) 文字セットでは、日本語で使用される文字群を定義しています。 英語と日本語のどちらの文字セットも、異なるコード・セットを使用してエンコードできます。

コード・ページ とは、コード・ページ仕様は 16 列×16 行の行列に基づく、 という制限付きのコード・セットのようなものです。 それぞれの列と行の交点では、コード化文字を定義します。

コード・セットを扱うときには、以下の点を考慮してください。
  • 文字のサイズはすべて 8 ビット (1 バイト) であると考えないでください。 文字は、1、2、3、4 またはそれ以上のバイトになる可能性があります。
  • コード・セットのエンコードを決め付けないでください。
  • 移植性に影響する可能性があるため、コード・セット、ロケール、 またはフォントの名前をハードコーディングしないでください。
次のコード・セットがサポートされます。
  • 業界標準のコード・セットがサポートされています。 ISO8859 ファミリーのコード・セットでは、 以下を含む一定の範囲の単一バイト・コード・セットがサポートされています。
    • Latin-1
    • Latin-2
    • Latin-4
    • キリル語
    • アラビア数字
    • ギリシャ語
    • ヘブライ語
    • トルコ語
    以下の業界標準コード・セットが使用可能です。
    • IBM-eucJP コード・セットは、日本語ロケールをサポートするのに使用される業界標準コード・セットです。
    • IBM-eucKR コード・セットは、ハングルをサポートするのに使用される業界標準コード・セットです。
    • IBM-eucTW コード・セットは、中国語 (繁体字) をサポートするのに使用される業界標準コード・セットです。
    • IBM-eucCN コード・セットは、中国語 (簡体字) を使用する国々をサポートするのに使用される業界標準コード・セットです。
    • UTF-8 コード・セットは、複数の言語 (中国語 (簡体字)、中国語 (繁体字)、 および日本語と韓国語で使用される漢字) を同時にサポートするのに使用される Universal Transformation Format of Unicode/ISO10646 のことです。
  • ISO8859-15 標準コード・セットは、現在、西ヨーロッパ・ロケール、 米国、およびカナダで使用されている既存の ISO8859-1 コード・セットに代わる規格です。 別のコード・セットが必要になったのは、 ユーロ通貨単位が導入されたため、 ヨーロッパ諸国でユーロを使用した商取引ができるようにする必要があったからです。 さらに、ISO8859-15 には、フランス語およびフィンランド語用に、7 つの文字が追加されています。
  • パーソナル・コンピューター (PC) ベースのコード・セット IBM-856、IBM-943、および IBM-1046 もサポートされています。 IBM-856 は、ヘブライ語をサポートするときに使用される単一バイト・コード・セットです。 IBM-943 は、日本語ロケールをサポートするときに使用されるマルチバイト・コード・セットです。 IBM-1046 は、アラビア語諸国をサポートするときに使用される単一バイト・コード・セットです。
  • IBM-1129 は、ベトナム語をサポートするときに使用される単一バイト・コード・セットです。
  • TIS-620 は、タイ語をサポートするときに使用される単一バイト・コード・セットです。
  • IBM-1124 は、ウクライナ語をサポートするときに使用される単一バイト・コード・セットです。
  • 完全な Unicode サポートは、 AIXによってサポートされる すべて 言語およびテリトリー用の UTF-8 コード・セットによって提供されます。 UTF-8 コード・セットは、複数の言語を同時にサポートするのに使用される Universal Transformation Format of Unicode/ISO10646 のことです。 UTF-8 コード・セットには、複数の言語およびアルファベットを処理しなければならない環境で使用するための、 完全なソリューションが備えられています。 また Unicode/UTF-8 コード・セットでは、共通のヨーロッパ通貨 (ユーロ) も完全にサポートされています。
  • IBM-1252 コード・セットは、 ユーロ通貨記号を含む単一バイト・コード・セット環境を必要とするユーザーのための互換オプションとして、サポートされています。 IBM-1252 コード・セットの構造は、業界標準のコード・セット ISO8859-1 と同じです。 ただし、0x80 から 0x9F までの ISO 制御文字の範囲内に、 別の図形文字が追加されているところは異なります。 IBM-1252 コード・セットでは、ユーロ通貨記号は 16 進数の valTXx80 にあります。