使用 Unicode

Unicode 是一个精确定义字符集以及少量编码的标准。它使您能够高效地处理任何语言的文本。它允许单个应用程序为全局受众工作。

在 Unicode 之前，存在的编码系统未涵盖使用中的所有必需数字，字符和符号。不同的编码系统可能会将相同的数字分配给不同的字符。如果使用了错误的编码系统，那么您的输出可能不是您期望看到的内容。

Unicode 为每个字符提供唯一编号，而不考虑平台，语言或程序。使用 Unicode ，您可以开发与各种平台，语言和国家或地区配合使用的软件产品。 Unicode 还允许通过许多不同的系统传输数据。现代系统提供基于 Unicode 的国际化解决方案。

Unicode 是作为单一编码字符集开发的，包含对世界各地通用语言的支持。 Unicode 的第一个版本使用了 16 位数字，这允许在没有复杂多字节方案的情况下编码 65 536 个字符。随着更多字符的加入，以及许多不同平台的实现需求， Unicode 被扩展为允许超过 100 万个字符。此外，还添加了其他编码方案，例如 UTF-8， UTF-16和 UTF-32。这给 Unicode 标准带来了更多的复杂性，但远不如管理大量不同的编码。

最初的 Unicode 曲目涵盖了计算中常用的所有主要语言。 Unicode 继续增长，并包含更多脚本。

Unicode 的设计在几个方面与传统字符集和编码方案不同:

它的曲目使用户能够在单个文档中高效地包含几乎所有语言的文本。
它可以采用基于字节的方式进行编码，每个字符有一个或多个字节，但缺省编码方案使用 16 位单元，允许对所有公共字符进行更简单的处理。
许多字符 (例如带有重音符和大音符的字母) 可以从基本字符和重音符或大音符修饰符组合。这种组合减少了需要单独编码的不同字符的数量。为了实现兼容性，包含了当时存在于公共字符集中的字符的 预组合 变体。例如，与组合波浪号配合使用的拉丁语小写字母 A 会在中生成。

字符及其用法是明确定义和描述的。传统字符集通常仅提供字符的名称或图片及其编号和字节编码; Unicode 具有完整的可用属性数据库。它还定义了许多用于处理文本处理的许多方面的过程和算法，以使其更可互操作。

早期包含所有常用字符集的字符使得 Unicode 成为在传统字符集之间转换的有用机制，并通过首先将文本转换为 Unicode ，处理文本，然后将其转换回原始编码而不丢失数据，从而使处理非 Unicode 文本变得可行。