使用 Unicode
Unicode 是一个精确定义字符集以及少量编码的标准。 它使您能够高效地处理任何语言的文本。 它允许单个应用程序为全局受众工作。
在 Unicode 之前,存在的编码系统未涵盖使用中的所有必需数字,字符和符号。 不同的编码系统可能会将相同的数字分配给不同的字符。 如果使用了错误的编码系统,那么您的输出可能不是您期望看到的内容。
Unicode 为每个字符提供唯一编号,而不考虑平台,语言或程序。 使用 Unicode ,您可以开发与各种平台,语言和国家或地区配合使用的软件产品。 Unicode 还允许通过许多不同的系统传输数据。 现代系统提供基于 Unicode 的国际化解决方案。
Unicode 是作为单一编码字符集开发的,包含对世界各地通用语言的支持。 Unicode 的第一个版本使用了 16 位数字,这允许在没有复杂多字节方案的情况下编码 65 536 个字符。 随着更多字符的加入,以及许多不同平台的实现需求, Unicode 被扩展为允许超过 100 万个字符。 此外,还添加了其他编码方案,例如 UTF-8, UTF-16和 UTF-32。 这给 Unicode 标准带来了更多的复杂性,但远不如管理大量不同的编码。
最初的 Unicode 曲目涵盖了计算中常用的所有主要语言。 Unicode 继续增长,并包含更多脚本。
Unicode 的设计在几个方面与传统字符集和编码方案不同:
- 它的曲目使用户能够在单个文档中高效地包含几乎所有语言的文本。
- 它可以采用基于字节的方式进行编码,每个字符有一个或多个字节,但缺省编码方案使用 16 位单元,允许对所有公共字符进行更简单的处理。
- 许多字符 (例如带有重音符和大音符的字母) 可以从基本字符和重音符或大音符修饰符组合。 这种组合减少了需要单独编码的不同字符的数量。 为了实现兼容性,包含了当时存在于公共字符集中的字符的 预组合 变体。 例如,与组合波浪号配合使用的拉丁语小写字母 A 会在
中生成。
字符及其用法是明确定义和描述的。 传统字符集通常仅提供字符的名称或图片及其编号和字节编码; Unicode 具有完整的可用属性数据库。 它还定义了许多用于处理文本处理的许多方面的过程和算法,以使其更可互操作。
早期包含所有常用字符集的字符使得 Unicode 成为在传统字符集之间转换的有用机制,并通过首先将文本转换为 Unicode ,处理文本,然后将其转换回原始编码而不丢失数据,从而使处理非 Unicode 文本变得可行。