统一码标准
统一码标准是书写字符和文本的通用字符编码标准。
支持 ICU4.8.1版和 Unicode6.0版。 统一码标准规定了每个字符的数值和名称。 它定义了多语言文本的统一编码方式,使文本数据的国际交流成为可能,并为全球软件奠定了基础。
用于编码字符的整数范围称为编码空间。 在此范围内的特定整数称为一个码位。 当一个字符被映射或分配到编码空间中的一个特定码位时,它就被称为编码字符。
统一码标准定义了三种编码形式,允许以字节、字或双字为导向的格式(即每个编码单位为 8 位、16 位或 32 位)存储和传输相同的数据。 所有这三种编码形式都对相同的通用字符库(实际的字符集)进行编码,并且可以在不丢失数据的情况下有效地相互转换。
三种编码形式是
- UTF-8将每个码位存储为一个 8 位单元(ASCII 字符),或两个、三个或四个 8 位序列。
- UTF-16使用一个 16 位单元或两个 16 位单元存储每个码位。
- UTF-32将每个码位存储为一个 32 位单元。
所有三种编码形式的每个字符最多需要 4 个字节(或 32 位)的数据。
不同的书写系统也有不同的整理方式。 Netezza Performance Server使用二进制整理来确定排序顺序,这意味着要根据二进制字符代码来整理 char 和 nchar 数据