Byteanordnungsmarkierung
Für Unicode im UTF-16-Format mit 16 Bit gibt es keine vorgeschriebene Endian-Ausrichtung für den Austausch. Deshalb müssen Kommunikationsprozesse die Endian-Ausrichtung ordnungsgemäß bewerten. Um dies zu erleichtern, kann das Zeichen U+FEFF (ZERO WIDTH NO-BREAK SPACE) als Byteanordnungsmarkierung (BOM) verwendet werden. Wenn es in der falschen Endian-Ausrichtung interpretiert wird, ergibt die Auswertung den Wert U+FFFE, der als KEIN ZEICHEN definiert ist.
Einige Anwendungen, insbesondere auf Windows-Systemen, schreiben ein BOM-Zeichen an den Anfang einer Datei. In UTF-8 besteht die Byteanordnungsmarkierung aus der Bytefolge EF BB BF. Da es sich um eine byteorientierte Kodierung handelt, gibt es bei UTF-8 keine Endian-Probleme, aber einige Anwendungen (vor allem unter Windows) schreiben das BOM an den Anfang einer UTF-8 Datei. Ein System lädt den Stücklistencodepunkt nicht; Sie können den Schalter -bom verwenden, um einen anfänglichen Stücklistencodepunkt zu entfernen.
nzconvert -f utf8 -t utf8 -bom -df input_file -of output_file
- UTF16
- Bei der Eingabe prüft der Netezza Performance Server, ob ein BOM die Endianness angibt; andernfalls interpretiert der Netezza Performance Server die Eingabe als Big-Endian. Als Ausgabe schreibt der Netezza Performance Server eine Stückliste und gibt sie in der nativen Endianness des Rechners aus. Beim Konvertieren der UTF-16-Codierung in eine andere Codierung, z. B. UTF-8, wird die Byteanordnungsmarkierung entfernt.
- UTF16le
- Bei Verwendung dieses Programms als Eingabe wird die Eingabe als Little Endian interpretiert. Die Ausgabe des Netezza Performance Server erfolgt im Little-Endian-Format ohne BOM. Alle Byteanordnungsmarkierungen werden als Daten aufgefasst und konvertiert, z. B. in UTF-8.
- UTF16be
- Bei Verwendung dieses Programms als Eingabe wird die gesamte Eingabe als Big Endian interpretiert. Bei der Ausgabe konvertiert der Netezza Performance Server als Big-Endian ohne BOM. Alle Byteanordnungsmarkierungen werden als Daten aufgefasst und konvertiert, z. B. in UTF-8.