IBM PureData System for Analytics, Version 7.1

Codierung und Normalisierung

ASCII-Zeichen belegen 4 Byte bei UTF-32, 2 Byte bei UTF-16 und 1 Byte bei UTF-8. Die verschiedenen Nicht-ASCII-Zeichen aus dem lateinischen ISO-Zeichensatz belegen in diesen Codierungen 4, 2 und 2 Byte. Die gängigen (chinesischen) Han-Zeichen belegen jedoch 3 Byte bei UTF-8 und 2 Byte (bzw. korrekter 16 Bit) bei UTF-16. Einige seltene Han-Zeichen belegen bei UTF-16 und bei UTF-8 jeweils 4 Byte.

Bei Unicode können einige Zeichen auf mehrere Arten codiert werden. Der Buchstabe À z. B. kann ein einzelnes Unicode-Zeichen ‘Lateinischer Großbuchstabe A mit Gravis’ oder zwei Zeichen ‘Lateinischer Großbuchstabe A in Kombination mit Gravis’ sein. Unicode definiert diese als kanonisch äquivalente Sequenzen. Da IBM® Netezza diese beiden Sequenzen als identisch behandeln muss, sind diese äquivalenten Sequenzen in der Datenbank nicht zulässig.

In bisherigen Releases hat Netezza Daten, die Kombinierungszeichen verwenden, nicht geladen; daher kann Netezza Sprachen wie Arabisch, Thailändisch, Urdu und Hindi nicht unterstützen. Der nzconvert-Befehl hat eine Option -nfc, mit der Sie Eingaben in UTF-8, UTF-16 oder UTF-32 über die ICU-Routinen (International Components for Unicode) in das NFC-Format (Normalisierungsform C) konvertieren können. Netezza lädt Daten im NFC-Format.

Zur Vermeidung von Mehrdeutigkeit definiert Unicode zwei Normalisierungsformen: Normalisierungsform C (NFC) und Normalisierungsform D (NFD). (Eine Beschreibung dieser Spezifikation finden Sie im Unicode Standard Annex #15 unter http://www.unicode.org/reports/tr15/.) Bei NFD wird im Wesentlichen immer zerlegt, während bei NFC wenn möglich kombiniert wird. Ab Release 4.0.3 lädt Netezza Daten im NFC-Format.

Netezza unterstützt ein leicht abgewandeltes Superset von NFC, namens NFC'. Mit dem Superset kann Netezza auch Singleton-Zerlegungszeichen unterstützen, da manchmal die Standardkonvertierungen aus einigen älteren Zeichencodierungen zu Singletons führen. Eine Beschreibung von Singletons finden Sie im Unicode Standard Annex #15.



Feedback | Copyright IBM Corporation 2014 | Letzte Aktualisierung: 2014-02-28