Unicode 標準

Unicode 標準は、筆記文字およびテキストのための汎用文字エンコード規格です。

ICUバージョン4.8.11とUnicodeバージョン6.0に対応しています。 Unicode 標準では、各文字の数値と名前を規定しています。これは、複数の言語で書かれたテキストのエンコードを一貫性のある方法で定義しており、これによってテキスト・データの国際的な交換が可能になり、グローバル・ソフトウェアの基盤が作成されます。

Unicode 文字の符号化に使われる整数の範囲をコード・スペースといいます。この範囲内にある特定の整数をコード・ポイントといいます。文字がコード・スペース内のある特定のコード・ポイントにマップされる (割り当てられる) と、コード化文字として扱われます。

Unicode 標準では、同一のデータを 1 バイト (8 ビット)、1 ワード (16 ビット)、または 1 ダブルワード (32 ビット) 単位で格納・転送することを可能にする 3 つのエンコーディング形式が定義されています。いずれも同じ文字レパートリー (実際の文字の集合) をエンコードし、また、データ損失を引き起こすことなく他形式への変換を効率的に行うことが可能です。

Unicode 標準が定義する 3 つのエンコーディング形式は以下のとおりです。

UTF-8 は、各コード・ポイントを 1 つの 8 ビット・ユニット (ASCII 文字) として、または 2～4 個の 8 ビット・シーケンスとして格納します。
UTF-16 は、各コード・ポイントを 1 つの 16 ビット・ユニットとして、または 2 つの 16 ビット・ユニットとして使用して格納します。
UTF-32 は各コード・ポイントを 32 ビット・ユニットとして格納します。

3 つのエンコーディング形式はいずれも、1 文字のエンコードにつき最大 4 バイト (32 ビット) のデータを必要とします。

記述システムが異なれば、照合の仕方も違ってきます。 Netezza Performance Serverはバイナリ照合順序を使用してソート順序を決定します。これはバイナリ文字コードに従ってcharデータとncharデータを照合することを意味します