Lo standard Unicode

Lo standard Unicode è lo standard universale di codifica dei caratteri per i caratteri scritti e il testo.

Sono supportate la versione 4.8.1 di ICU e la versione 6.0 di Unicode. Lo standard Unicode specifica un valore numerico e un nome per ogni carattere. Definisce un modo coerente di codificare il testo multilingue che consente lo scambio di dati testuali a livello internazionale e crea le basi per un software globale.

L'intervallo di numeri interi utilizzato per codificare i caratteri è chiamato spazio di codifica. Un particolare numero intero in questo intervallo è chiamato punto di codice. Quando un carattere è mappato o assegnato a un particolare punto di codice nello spazio di codifica, viene chiamato carattere codificato.

Lo standard Unicode definisce tre forme di codifica che consentono di memorizzare e trasmettere gli stessi dati in un formato orientato al byte, alla parola o alla doppia parola (cioè, in 8, 16 o 32 bit per unità di codice). Tutte e tre le forme di codifica codificano lo stesso repertorio comune di caratteri (la raccolta effettiva di caratteri) e possono essere trasformate in modo efficiente l'una nell'altra senza perdita di dati.

Le tre forme di codifica sono:

  • UTF-8 memorizza ogni punto di codice come una singola unità a 8 bit (i caratteri ASCII), oppure come due, tre o quattro sequenze a 8 bit.
  • UTF-16 memorizza ogni punto di codice utilizzando una singola unità a 16 bit o due unità a 16 bit.
  • UTF-32 memorizza ogni punto di codice come unità a 32 bit.

Tutte e tre le forme di codifica richiedono al massimo 4 byte (o 32 bit) di dati per ogni carattere.

I diversi sistemi di scrittura variano anche nel modo in cui gestiscono la fascicolazione. Netezza Performance Server utilizza la fascicolazione binaria per determinare l'ordine di ordinamento, il che significa fascicolare i dati char e nchar in base ai codici dei caratteri binari