Unicode Standard

Unicode Standard es la codificación de caracteres universal estándar para caracteres escritos y texto.

ICU versión 4.8.1 y Unicode versión 6.0 son compatibles. Unicode Standard especifica un valor numérico y un nombre para cada uno de sus caracteres. Definen una forma coherente de texto multilingüe cifrado que permite el intercambio de datos de texto internacionalmente y crea la base para un software global.

El rango de enteros que se utiliza para codificar los caracteres se denomina codespace. Un entero particular de este rango se denomina code point. Cuando se correlaciona o asigna un carácter a un punto de código concreto en un espacio de códigos, se denomina coded character.

Unicode Standard define tres formatos de codificación que permiten a los mismos datos almacenarse y transmitirse en un byte, palabra o formato orientado a palabras dobles(es decir, in 8, 16 o 32 bits por unidad de código). Los tres formatos de cifrado codifican el mismo repertorio de caracteres comunes (la colección real de caracteres) y se puede transformar de forma eficiente a otro sin pérdida de datos.

Los tres formatos de codificación son:

UTF-8 almacena cada punto de código como una sola unidad de 8 bits (los caracteres ASCII), o como dos, tres o cuatro secuencias de 8 bits.
UTF-16 almacena cada punto de código utilizando una única unidad de 16 bits o como dos unidades de 16 bits.
UTF-32 almacena cada punto de código como una unidad de 32 bits.

Los tres formatos de codificación necesitan como máximo 4 bytes (o 32 bits) de datos para cada carácter.

Los diferentes sistemas de escritura también varían en cómo gestionan la ordenación. Netezza Performance Server utiliza la intercalación binaria para determinar el orden de clasificación, lo que significa intercalar los datos char y nchar según los códigos de caracteres binarios