多文化支持的代码集

AIX® 的全球化基于以下假设: 可以将所有代码集划分为任意数量的字符集。

如果要理解代码集,有必要先理解字符集。 字符集是基于一种或多种语言的特定需求而预定义的一组字符,它不考虑用来表示字符的编码值。 选择使用哪一种代码集取决于用户的数据处理需求。 特定的字符集可以使用不同的编码方案进行编码。 例如,ASCII 字符集定义了可在英语字符的集合。 日本工业标准(Japanese Industrial Standard,JIS)字符集定义了在日语中使用的字符集。 无论英语还是日语字符集都可以使用不同的代码集编码。

代码页类似于代码集,但其限制是基于 16 列乘 16 行矩阵来指定代码页。 每行每列的交接点定义了一个经编码的字符。

在处理代码集时,请考虑以下事项:
  • 不要假设所有字符的长度是 8 位,即 1 个字节。 字符可能有 1、2、3、4 个或更多字节。
  • 不要假设任何代码集的编码方式。
  • 不要将代码集、语言环境或字体的名称进行硬编码,因为这会影响可移植性。
支持以下代码集:
  • 本系统提供了对业界标准代码集的支持。 ISO8859 系列代码集提供了一系列单字节代码集支持,其中包括:
    • Latin-1
    • Latin-2
    • Latin-4
    • 西里尔语
    • 阿拉伯语
    • 希腊语
    • 希伯来语
    • 土耳其语
    有以下业界标准代码集可用:
    • IBM-eucJP 代码集是用来支持日语语言环境的业界标准代码集。
    • IBM-eucKR 代码集是用来支持韩语国家或地区的业界标准代码集。
    • IBM-eucTW 代码集是用来支持繁体中文国家或地区的业界标准代码集。
    • IBM-eucCN 代码集是用来支持使用简体中文的国家或地区的业界标准代码集。
    • UTF-8 代码集是 Unicode/ISO10646 的“通用转换格式”(Universal Transformation Format),被用来同时支持多种语言(包括简体中文、繁体中文和日语、韩语中使用的中文字符)。
  • ISO8859-15 标准代码集是现有 ISO8859-1 代码集的替代标准,ISO8859-1 目前在西欧语言环境、美国和加拿大使用。 需要另一种代码集的原因是引入了欧元货币单位,以及出于欧洲国家或地区能够使用欧元进行业务交易这一需要。 此外,ISO8859-15 包含了 7 个在法语和芬兰语中使用的附加字符。
  • 还支持基于个人计算机 (PC) 的代码集 IBM-856、IBM-943 和 IBM-1046。 IBM-856 用以支持希伯来国家或地区的单字节代码集。 IBM-943 是用来支持日语语言环境的多字节代码集。 IBM-1046 是用以支持支持阿拉伯国家或地区的单字节代码集。
  • IBM-1129 是用来支持越南语的单字节代码集。
  • TIS-620 是用来支持泰国语的单字节代码集。
  • IBM-1124 是用来支持乌克兰语的单字节代码集。
  • AIX所支持的 全部 语言和地域的 UTF-8 代码集提供了完整的 Unicode 支持。 UTF-8 代码集是 Unicode/ISO10646 的“通用转换格式”(Universal Transformation Format),被用来同时支持多种语言。 在必须处理多种语言和文字符号的环境中,UTF-8 代码集提供了最彻底的解决方案。 Unicode/UTF-8 代码集还提供对通用的欧洲货币(欧元)的完全支持。
  • 对于那些需要含有欧元货币符号的单字节代码集环境的用户,IBM-1252 代码集支持是以兼容性选项的形式提供的。 IBM-1252 代码集与业界标准代码集 ISO8859-1 具有相同结构,但在 ISO 控制字符范围(0x80 到 0x9F)中添加了几个其他图形字符。 欧元货币符号为 IBM-1252 代码集中的十六进制值 0x80。