IBM PureData System for Analytics, バージョン 7.1

Unicode 標準

Unicode 標準は、筆記文字およびテキストのための汎用文字エンコード規格です。

IBM® Netezza® リリース 6.0.8 以降では、ICU バージョン 4.8.1 および Unicode バージョン 6.0 をサポートします。 Unicode 標準では、各文字の数値と名前を規定しています。 これは、複数の言語で書かれたテキストのエンコードを一貫性のある方法で定義しており、これによってテキスト・データの国際的な交換が可能になり、グローバル・ソフトウェアの基盤が作成されます。

Unicode 文字の符号化に使われる整数の範囲をコード・スペースといいます。この範囲内にある特定の整数をコード・ポイントといいます。文字がコード・スペース内のある特定のコード・ポイントにマップされる (割り当てられる) と、コード化文字 として扱われます。

Unicode 標準では、同一のデータを 1 バイト (8 ビット)、1 ワード (16 ビット)、または 1 ダブルワード (32 ビット) 単位で格納・転送することを可能にする 3 つのエンコーディング形式が定義されています。 いずれも同じ文字レパートリー (実際の文字の集合) をエンコードし、また、データ損失を引き起こすことなく他形式への変換を効率的に行うことが可能です。

Unicode 標準が定義する 3 つのエンコーディング形式は以下のとおりです。

3 つのエンコーディング形式はいずれも、1 文字のエンコードにつき最大 4 バイト (32 ビット) のデータを必要とします。

記述システムが異なれば、照合の仕方も違ってきます。IBM Netezza ではバイナリー照合を用いてソート順序を決定します。つまり、バイナリー文字コードを基準に char データと nchar データの照合が行われるということです。



フィードバック | Copyright IBM Corporation 2014 | 最終更新日: 2014-02-28