Apache HDFS 接続

Apache HDFS 内のデータにアクセスするには、そのデータ用の接続資産を作成します。

Apache Hadoop Distributed File System (HDFS) は、コモディティー・ハードウェア上で実行するように設計された分散ファイル・システムです。 Apache HDFS は、以前は Hortonworks HDFS でした。

サポートされているバージョン

Apache HDFS 3.1.

Kerberos 認証の前提条件

Kerberos 認証を使用する予定の場合は、以下の要件を満たしてください。

Apache HDFS への接続の作成

接続 資産 を作成するには、以下の接続の詳細が必要です。 WebHDFS URL は必須です。
接続フォームで使用可能なプロパティーは、 Hive データ・ソースに表を書き込むことができるように「 接続先 Apache Hive 」を選択したかどうかによって異なります。

  • WebHDFS URL は、 HDFS にアクセスします。
  • Hive ホスト: Apache Hive サーバーのホスト名または IP アドレス。
  • Hive データベース: Apache Hive のデータベース。
  • Hive ポート番号: Apache Hive サーバーのポート番号。 デフォルト値は10000です。
  • Hive HTTP path: サーバーが HTTP トランスポート・モード用に構成されている場合のエンドポイントのパス (gateway/default/hive など)。
  • SSL 証明書 (必要な場合、Apache Hive サーバーによって要求されます)。

認証方式

Kerberos 資格情報 または ユーザー名とパスワード を選択できます。

  • Kerberos 資格情報 の場合、 認証の前提条件 を完了する必要があり、以下の接続の詳細が必要です。 Kerberos Connect to Apache Hive を選択した場合は、 Hive の以下の詳細も必要です。

    • データ・ソース用に構成されたサービス・プリンシパル名 (SPN)。
    • Kerberos 化されたデータ・ソースに接続するためのユーザー・プリンシパル名。
    • 鍵配布センター (KDC) に対する認証に使用されるユーザー・プリンシパル名のキータブ・ファイル。
  • ユーザー名とパスワード の場合、 Apache Hive に接続する場合は、 Hive ユーザーとパスワードの値も指定します。

資格情報 および 証明書 の場合、プラットフォーム用にボールトが構成されており、サービスがボールトをサポートしている場合は、シークレットを使用できます。 詳しくは、 接続でのボールトからのシークレットの使用 を参照してください。

連邦情報処理標準 (FIPS) 準拠

この接続は FIPS 準拠であり、FIPS 対応クラスターで使用できます。

Apache HDFS のセットアップ

Hadoop ・クラスターのインストールとセットアップ

サポートされるファイル・タイプ

Apache HDFS 接続は、Avro、CSV、Delimited text、Excel、JSON、ORC、Parquet、SAS、SAV、SHP、および XML の各ファイル・タイプをサポートします。

テーブル・フォーマット

接続 Apache HDFS では、フラットファイルに加えて、以下のデータレイクテーブル形式をサポートしています: Delta Lake および Iceberg。

詳細はこちら