O padrão Unicode
O padrão Unicode é o padrão de codificação de caracteres universal para caracteres gravados e texto.
Há suporte para ICU versão 4.8.1 e Unicode versão 6.0. O padrão Unicode especifica um valor numérico e um nome para cada um de seus caracteres. Ele define uma forma consistente de codificar texto multilíngue, o que permite a troca de dados de texto internacionalmente e cria a base para software global.
O intervalo de números inteiros usado para codificar os caracteres é chamado de espaço de código. Um número inteiro específico nesse intervalo é chamado de ponto de código. Quando um caractere é mapeado ou designado a um ponto de código específico no espaço de código, ele é chamado de caractere codificado.
O padrão Unicode define três formas de codificação que permitem que os mesmos sejam armazenados e transmitidos em um formato orientado por byte, palavra ou palavra dupla (ou seja, em 8, 16 ou 32 bits por unidade de código). Todas as três formas de codificação codificam o mesmo repertório de caracteres comuns (a coleção atual de caracteres) e podem ser eficientemente transformadas umas nas outras sem que haja perda de dados.
As três formas de codificação são:
- UTF-8 armazena cada ponto de código como uma única unidade de 8 bits (os caracteres ASCII), ou como duas, três ou quatro sequências de 8 bits.
- UTF-16 armazena cada ponto de código usando uma única unidade de 16 bits ou duas unidades de 16 bits.
- UTF-32 armazena cada ponto de código como uma unidade de 32 bits.
Todas as três formas de codificação precisam de no máximo 4 bytes (ou 32 bits) de dados para cada caractere.
Diferentes sistemas de gravação também variam no modo como manipulam a ordenação. Netezza Performance Server usa o agrupamento binário para determinar a ordem de classificação, o que significa agrupar os dados char e nchar de acordo com os códigos de caracteres binários