文字変換の用語

文字変換の概念を理解するには、いくつかの基本的な関連用語の意味を知っておく必要があります。

以下は、文字変換に関連する用語です。

アプリケーションのコード化スキーム

ホスト変数のデータを解釈するためにアプリケーションが使用する CCSID。 Db2 for z/OS® アプリケーションの場合、アプリケーションのエンコード・スキームは通常 ENCODING バインド・オプションの値です。 (デフォルトでは、ENCODING バインド・オプションの値はサブシステムのデフォルト・アプリケーション・コード化スキーム (APPENSCH DECP 値) です。) ただし、CCSID オプションまたは CURRENT APPLICATION ENCODING SCHEME 特殊レジスターを指定して DECLARE VARIABLE ステートメントを使用して、アプリケーション・データの CCSID を設定することもできます。

Db2 コプロセッサーを使用している場合は、さまざまな言語コンパイラー・オプションを使用して、アプリケーションの Db2 アプリケーション・エンコード・スキームを上書きすることができます。

アプリケーションのエンコード方式の詳細については、「アプリケーションの CCSID の指定」を参照してください。

ASCII

American Standard Code for Information Interchange (情報交換用米国標準コード) の頭字語で、文字を表すために使用されるコード化スキームの 1 つです。この情報では、ASCIIという用語は、 IBM® -PCデータまたはISO 8ビットデータを指すために使用されています。

ASCIIの詳細については、ASCII を参照してください。エンコーディングスキーム全般に関する詳細情報については、「エンコーディングスキーム」を参照してください。

ビッグ・エンディアン

最上位バイトが、最初に格納され、最小アドレスのメモリー・ロケーションに格納されるデータ・フォーマット。

ビッグエンディアンに関する詳細については、「エンディアン」を参照してください。

文字変換

文字をある CCSID から別の CCSID に変換するプロセス。

Db2 による文字変換の実行方法の詳細については、「 Db2 による文字変換の実行方法」を参照してください。

Character Data Representation Architecture (CDRA)

データ処理環境におけるグラフィック文字データの表現、処理、交換の一貫性を実現することを目的とした IBM アーキテクチャ。 CDRA は、一連の ID、サービス、サポート・リソース、および規則を定義します。 CDRA が定義する ID は CCSID です。

CDRAの詳細については、「コードページとCCSID 」を参照してください。

文字レパートリー

文字の集合。

文字セット

定義された文字の集合で、この中では、文字が、書き言葉としての言語で意味のある値を持つ最小の構成要素となっています。

コード・ページ

特定の文字セットまたは文字セットの集合内の各文字に対して定義されたコード化スキームのコード・ポイントの仕様。コード・ページ内の各コード・ポイントには、1 つの特定の意味だけが設定されます。コードページは、 IBM Globalization センター・オブ・コンピテンシーによって定義されています。

コードページの詳細については、「コードページとCCSID」を参照してください。

コード・ポイント

文字を表す、固有なビット・パターンです。

コードポイントの詳細については、「コードページとCCSID」を参照してください。

符号化文字集合

文字セットを確立し、かつその文字セットの文字とコード化表現との間で 1 対 1 対応の関係を確立する明確な規則の集まり。コード化文字セットは、文字セット内の各文字を固有の数字コード値に割り当てたものです。

コード化文字セット ID (CCSID)

コード化スキーム ID、文字セット ID、コード・ページ ID、および追加のコード関連情報の特定の集合を識別する 16 ビットの数値。 CCSID は、特定時点におけるコード・ページの実装を識別する数値です。長さがストリングの属性であることとまったく同じように、CCSID はストリングの属性です。同じストリング列にある値の CCSID は、すべて同じです。

CCSIDの詳細については、「コードページとCCSID 」を参照してください。

コード化文字セット ID (CCSID) セット

特定のコード化スキームに関連付けられている、1 バイト CCSID 値 (SBCS)、混合 CCSID 値、および 2 バイト CCSID 値 (DBCS)。

CCSID セットの詳細については、「サブシステムの CCSID の指定」を参照してください。

照合名

Db2 がデータをソートする方法を指定するストリング値。照合名により、データの言語、大/小文字を考慮する必要があるかどうか、および句読文字の扱いなどの属性が指定されます。

照合順序名の詳細については、「言語のソート順序の指定」を参照してください。

収縮変換

変換後のストリングの長さがソース・ストリングの長さより短くなる文字変換。

契約変換の詳細については、「契約変換」を参照してください。

変換イメージ

z/OS Unicode Services が文字および大/小文字変換を実行するために必要な情報を含むデータ・セット。

変換画像についての詳細は、変換画像をご覧ください。

EBCDIC

Extended Binary-Coded Decimal Interchange Code (拡張 2 進化 10 進コード) の頭字語で、 8 ビットのコード化文字で構成されるコード化文字セットのグループです。 EBCDIC コード化文字セットは、文字をコード・ポイントに割り当てます。各コード・ポイントは、8 ビットで構成されます。

EBCDICの詳細については、EBCDIC を参照してください。エンコーディングスキーム全般に関する詳細情報については、「エンコーディングスキーム」を参照してください。

コード化スキーム

文字データを表すために使用される規則の集合。同じ表に保管されているすべてのストリング・データは、すべての同じコード化スキームを使用しなければなりません。同じ表スペース内のすべての表も、すべて同じコード化スキームを使用する必要があります (ただしグローバル一時表、宣言済み一時表、および作業ファイル表スペースを除く)。コード化スキームは、エンコードのタイプのみを記述するものであり、コード・ポイントやコード・ページを指定することはありません。コード化スキームの例としては、ASCII、 EBCDIC、および Unicode があります。

エンコーディングスキームの詳細については、「エンコーディングスキーム」を参照してください。

エンディアン

バイト・オーダーを記述するデータ属性。

エンディアンについての詳細は、エンディアンを参照してください。

強制サブセット変換

ターゲット CCSID にコード・ポイントが存在しない文字を、単一の置換文字に変換する文字変換。

強制サブセット変換の詳細については、「強制サブセット変換」を参照してください。

エスケープされたデータ

ターゲット CCSID で表現できず、何らかの追加の構文規則によって、そのことが識別されている 1 つ以上の文字。

エスケープされたデータの詳細については、「エスケープされたUnicodeデータの生成」を参照してください。

拡張変換

変換後のストリングの長さがソース・ストリングの長さより長くなる文字変換。

コンバージョン率の拡大についての詳細は、コンバージョン率の拡大をご覧ください。

International Components for Unicode (ICU)

Unicodeサポートとソフトウェアの国際化のためのC/C++およびJava™ライブラリセット。

ICUの詳細については、 The International Components for Unicode を参照してください。

リトル・エンディアン

最下位バイトが、最初に格納され、最小アドレスのメモリー・ロケーションに格納されるデータ・フォーマット。

リトルエンディアンの詳細については、「エンディアン」を参照してください。

locale

ユーザーの国/地域別環境を定義する属性。

ロケールに関する詳細は、Locale を参照してください。

無損失変換

ソース CCSID 内のすべての文字がターゲット CCSID に存在する変換。このため、文字は失われません。

ロスレス変換の詳細については、「文字コード変換の可能性」を参照してください。

正規化

正準等価または互換性の上で等価のいずれかであるすべてのシーケンスに対して、固有のコード・ポイント・シーケンスを生成するプロセス。

正規化の詳細については、「Unicode 文字列の正規化」を参照してください。

往復変換

ソース CCSID からターゲット CCSID に変換し、再度ソースに変換する場合の全文字データの保全性が保証される文字変換。ターゲット CCSID でサポートされていない文字であっても、元の CCSID への変換後にその文字の元の 16 進値が回復されます。

ラウンドトリップ変換の詳細については、「ラウンドトリップ変換」を参照してください。

代替文字

ソース CCSID において、ターゲット CCSID に一致する文字がないすべての文字を文字変換するときに、代替文字として使用される固有の文字。

代替文字の詳細については、「強制サブセット変換」を参照してください。

補足文字

U+10000 から U+10FFFF の間のコード・ポイントを持つ文字。

補助文字の詳細については、「 Db2 によるUnicode補助文字の処理」を参照してください。

Unicode

文字で記述される通信を単純かつ一貫した方法で行うために使用されるすべての文字をエンコードする目的で設計された情報処理用の国際文字コード。 Unicode 文字エンコード方式は、世界中で一般的に使用されるあらゆる文字および技術的な記号、および一部の古文字のコード・ポイントを表すことを目的としています。

Unicodeの詳細については、Unicode を参照してください。エンコーディングスキーム全般に関する詳細情報については、「エンコーディングスキーム」を参照してください。

Unicode Consortium

Unicode 標準をはじめとする国際化標準を開発、管理する非営利組織。

Unicodeコンソーシアムの詳細については、Unicodeコンソーシアムをご覧ください。

Unicode 変換形式 (UTF) (Unicode transformation formats (UTFs))

システムが効率的に通信できるようにするために Unicode コンソーシアムによって考案された Unicode エンコードの形式。 UTF-8、UTF-16、および UTF-32 は、それぞれ異なる処理目標のために設計されました。

UTFの詳細については、UTF を参照してください。

z/OS Unicode Services

提供される機能のセット z/OS。サービスには、大文字小文字変換サービスや文字変換サービスなどがあります。

z/OS Unicode Services に関する詳細情報については、「 z/OS Unicode Services for Db2 for z/OS のセットアップ」を参照してください。