S3 CSV 構文解析

入力シリアライゼーションで CSV 定義を定義するには、以下のデフォルト値を使用します。

  • 行区切り文字には {\n} を使用します。

  • 引用符には {“} を使用します。

  • エスケープ文字には {\} を使用します。

csv-header-info は、 USE が AWS-CLI; に出現したときに解析されます。これは、スキーマを含む入力オブジェクトの最初の行です。 現在、出力のシリアライゼーションと圧縮タイプはサポートされていません。 S3 選択エンジンには、 S3-objects: を解析する CSV パーサーがあります。

  • 各行は行区切り文字で終了します。

  • フィールド分離文字は、隣接する列を区切ります。

  • 連続するフィールド分離文字は、 NULL 列を定義します。

  • 引用符文字はフィールド分離文字をオーバーライドします。つまり、フィールド分離文字は引用符の間の任意の文字です。

  • エスケープ文字は、行区切り文字を除くすべての特殊文字を使用不可にします。

CSV 構文解析ルールの例を以下に示します。

表 1. CSVパース

機能

説明

入力 (トークン)

NULL

連続するフィールド区切り文字

,,1,,2, ==> {null}{null}{1}{null}{2}{null}

QUOTE

引用文字は、フィールド区切り文字をオーバーライドします。

11,22,”a,b,c,d”,last ==> {11}{22}{“a,b,c,d”}{last}

Escape

エスケープ文字はメタ文字をオーバーライドします。

11,22,str=\”abcd\”\,str2=\”123\”,last ==> {11}{22}{str=”abcd”,str2=”123”}{last}

row delimiter

閉じられた引用符はありません。行区切り文字は閉じられた行です。

11,22,a=”str,44,55,66 ==> {11}{22}{a=”str,44,55,66}

csv header info

FileHeaderInfo 札

USE 値は、最初の行の各トークンがカラム名であることを意味します。IGNORE 値は、最初の行をスキップすることを意味します。