Marca de orden de bytes
Unicode en formato UTF-16 de 16 bits no tiene orientación endian prescrita para el intercambio. Esto requiere procesos de comunicación para evaluar la orientación endian correctamente. Para ayudar en esto, se puede utilizar el carácter U+FEFF ZERO WIDTH NO-BREAK SPACE como marca de orden de bytes (BOM). Cuando se interpreta en la orientación endian incorrecta, se evalúa a U+FFFE, que se define como NOT A CHARACTER.
Algunas aplicaciones, especialmente en sistemas Windows, escriben un carácter BOM al principio de un archivo. En UTF-8, el BOM es la secuencia de bytes EF BB BF. Al tratarse de una codificación orientada a bytes, no existen problemas endianos con UTF-8, pero algunas aplicaciones (principalmente en Windows) escriben la lista de materiales al principio de un archivo codificado en UTF-8. Un sistema no carga el punto de código de la lista de materiales; puede utilizar el modificador -bom para eliminar un punto de código inicial de la lista de materiales.
nzconvert -f utf8 -t utf8 -bom -df input_file -of output_file
- UTF16
- Como entrada, ' Netezza Performance Server ' comprueba si hay una lista de materiales para indicar el formato; de lo contrario, ' Netezza Performance Server ' interpreta la entrada como big-endian. Como salida, Netezza Performance Server escribe una lista de materiales y salidas en el formato nativo de la máquina. Al convertir desde UTF-16 a cualquier otra codificación, como UTF-8, se elimina la BOM.
- UTF16le
- Como entrada, interpreta la entrada como little endian. Como salida, Netezza Performance Server sale como little-endian sin BOM. Cualquier BOM se trata como datos y se convierte, por ejemplo en UTF-8.
- UTF16be
- Como entrada, interpreta todas las entradas como big endian. Como salida, Netezza Performance Server convierte como big-endian sin un BOM. Cualquier BOM se trata como datos y se convierte, por ejemplo en UTF-8.