Unicode-Standard

Der Unicode-Standard ist der universale Zeichencodierungsstandard für Schriftzeichen und Text.

ICU Version 4.8.1 und Unicode Version 6.0 werden unterstützt. Der Unicode-Standard legt einen numerischen Wert und einen Namen für jedes seiner Zeichen fest. Er definiert eine konsistente Art und Weise, mehrsprachigen Text zu codieren, die den internationalen Austausch von Textdaten ermöglicht und die Basis für global verwendbare Software bietet.

Der Bereich von Ganzzahlen, der zum Codieren der Zeichen verwendet wird, wird als Codebereich bezeichnet. Eine bestimmte Ganzzahl in diesem Bereich wird als Codepunkt bezeichnet. Wenn ein Zeichen einem bestimmten Codepunkt im Codebereich zugeordnet oder zugewiesen ist, wird es als codiertes Zeichen bezeichnet.

Der Unicode-Standard definiert drei Codierungsformate, die das Speichern und Übertragen derselben Daten in einem byte-, wort- oder doppelwortorientieren Format (d. h. 8, 16 oder 32 Bit pro Codeeinheit) ermöglichen. Alle drei Codierungsformate codieren dasselbe allgemeine Zeichenrepertoire (die tatsächliche Sammlung von Zeichen) und können problemlos und ohne Datenverlust ineinander umgesetzt werden.

Die drei Codierungsformate sind folgende:

UTF-8 speichert jeden Codepunkt als einzelne 8-Bit-Einheit (ASCII-Zeichen) oder als zwei, drei oder vier 8-Bit-Folgen.
UTF-16 speichert jeden Codepunkt als einzelne 16-Bit-Einheit oder als zwei 16-Bit-Einheiten.
UTF-32 speichert jeden Codepunkt als 32-Bit-Einheit.

Alle drei Codierungsformate benötigen höchstens 4 Byte (oder 32 Bit) Daten für jedes Zeichen.

Verschiedene Schriftsysteme verwenden auch unterschiedliche Sortierungen. Der Netezza Performance Server verwendet die binäre Sortierung, um die Sortierreihenfolge zu bestimmen, was bedeutet, dass char- und nchar-Daten entsprechend den binären Zeichencodes sortiert werden