Utilisation d'Unicode

Unicode est une norme qui définit précisément un jeu de caractères ainsi qu'un petit nombre de codages. Il vous permet de gérer efficacement le texte dans n'importe quelle langue. Il permet à une seule application de fonctionner pour un public global.

Avant Unicode, les systèmes de codage existants ne couvraient pas tous les nombres, caractères et symboles nécessaires utilisés. Différents systèmes de codage peuvent affecter le même nombre à des caractères différents. Si vous avez utilisé un système de codage incorrect, il se peut que votre sortie n'ait pas été celle que vous attendiez.

Unicode fournit un numéro unique pour chaque caractère, quelle que soit la plateforme, la langue ou le programme. A l'aide d'Unicode, vous pouvez développer un produit logiciel qui fonctionne avec différentes plateformes, langues et pays. Unicode permet également aux données d'être transportées à travers de nombreux systèmes différents. Les systèmes modernes fournissent des solutions d'internationalisation basées sur Unicode.

Unicode a été développé en tant que jeu de caractères codés unique qui contient la prise en charge des langues communes dans le monde entier. La première version d'Unicode utilisait des nombres à 16 bits, ce qui permettait de coder 65 536 caractères sans schémas multi-octets compliqués. Avec l'inclusion de plus de caractères, et suivant les besoins d'implémentation de nombreuses plateformes différentes, Unicode a été étendu pour autoriser plus d'un million de caractères. En outre, d'autres schémas de codage ont été ajoutés, tels que UTF-8, UTF-16et UTF-32. Cela a introduit plus de complexité dans la norme Unicode, mais beaucoup moins que la gestion d'un grand nombre de codages différents.

Le répertoire Unicode original couvrait toutes les langues principales couramment utilisées en informatique. Unicode continue de croître et d'inclure plus de scripts.

La conception d'Unicode diffère de plusieurs manières des jeux de caractères traditionnels et des schémas de codage:

  • Son répertoire permet aux utilisateurs d'inclure du texte efficacement dans presque toutes les langues au sein d'un même document.
  • Il peut être codé d'une manière basée sur les octets avec un ou plusieurs octets par caractère, mais le schéma de codage par défaut utilise des unités de 16 bits qui permettent un traitement beaucoup plus simple pour tous les caractères communs.
  • De nombreux caractères, tels que les lettres avec des accents et des umlauts, peuvent être combinés à partir du caractère de base et de l'accent ou des modificateurs d'umlaut. Cette combinaison réduit le nombre de caractères différents qui doivent être codés séparément. Les variantes précomposées pour les caractères qui existaient dans les jeux de caractères communs à l'époque ont été incluses à des fins de compatibilité. Par exemple, la lettre minuscule latine A utilisée avec un tilde combiné donne Un caractère graphique.

Les caractères et leur utilisation sont bien définis et décrits. Les jeux de caractères traditionnels fournissent généralement uniquement le nom ou une image d'un caractère et son nombre et son codage d'octets ; Unicode dispose d'une base de données complète de propriétés disponibles. Il définit également un certain nombre de processus et d'algorithmes pour traiter de nombreux aspects du traitement de texte afin de le rendre plus interopérable.

L'inclusion précoce de tous les caractères des jeux de caractères couramment utilisés fait d'Unicode un mécanisme utile pour la conversion entre les jeux de caractères traditionnels, et rend possible le traitement de texte non-Unicode en convertissant d'abord le texte en Unicode, en traitant le texte, puis en le reconvertissant au codage d'origine sans perte de données.