Byteanordnungsmarkierung

Für Unicode im UTF-16-Format mit 16 Bit gibt es keine vorgeschriebene Endian-Ausrichtung für den Austausch. Deshalb müssen Kommunikationsprozesse die Endian-Ausrichtung ordnungsgemäß bewerten. Um dies zu erleichtern, kann das Zeichen U+FEFF (ZERO WIDTH NO-BREAK SPACE) als Byteanordnungsmarkierung (BOM) verwendet werden. Wenn es in der falschen Endian-Ausrichtung interpretiert wird, ergibt die Auswertung den Wert U+FFFE, der als KEIN ZEICHEN definiert ist.

Einige Anwendungen, insbesondere auf Windows-Systemen, schreiben ein BOM-Zeichen an den Anfang einer Datei. In UTF-8 besteht die Byteanordnungsmarkierung aus der Bytefolge EF BB BF. Da es sich um eine byteorientierte Kodierung handelt, gibt es bei UTF-8 keine Endian-Probleme, aber einige Anwendungen (vor allem unter Windows) schreiben das BOM an den Anfang einer UTF-8 Datei. Ein System lädt den Stücklistencodepunkt nicht; Sie können den Schalter -bom verwenden, um einen anfänglichen Stücklistencodepunkt zu entfernen.

Sie können eine Byteanordnungsmarkierung am Anfang einer UTF-8-Datei mithilfe des nzconvert-Befehls entfernen, wie im folgenden Beispiel gezeigt:

nzconvert -f utf8 -t utf8 -bom -df input_file -of output_file

Wenn Sie aus oder in UTF-16 konvertieren, können Sie eines der drei Konvertierungsprogramme UTF16, UTF16be oder UTF16le als Eingabe (Option -f) oder Ausgabe (Option -t) verwenden:

UTF16: Bei der Eingabe prüft der Netezza Performance Server, ob ein BOM die Endianness angibt; andernfalls interpretiert der Netezza Performance Server die Eingabe als Big-Endian. Als Ausgabe schreibt der Netezza Performance Server eine Stückliste und gibt sie in der nativen Endianness des Rechners aus. Beim Konvertieren der UTF-16-Codierung in eine andere Codierung, z. B. UTF-8, wird die Byteanordnungsmarkierung entfernt.
UTF16le: Bei Verwendung dieses Programms als Eingabe wird die Eingabe als Little Endian interpretiert. Die Ausgabe des Netezza Performance Server erfolgt im Little-Endian-Format ohne BOM. Alle Byteanordnungsmarkierungen werden als Daten aufgefasst und konvertiert, z. B. in UTF-8.
UTF16be: Bei Verwendung dieses Programms als Eingabe wird die gesamte Eingabe als Big Endian interpretiert. Bei der Ausgabe konvertiert der Netezza Performance Server als Big-Endian ohne BOM. Alle Byteanordnungsmarkierungen werden als Daten aufgefasst und konvertiert, z. B. in UTF-8.