Apache HDFS 接続
Apache HDFS 内のデータにアクセスするには、そのデータ用の接続資産を作成します。
Apache Hadoop Distributed File System (HDFS) は、コモディティー・ハードウェア上で実行するように設計された分散ファイル・システムです。 Apache HDFS は、以前は Hortonworks HDFS でした。
サポートされているバージョン
Apache HDFS 3.1.
Kerberos 認証の前提条件
Kerberos 認証を使用する予定の場合は、以下の要件を満たしてください。
- Kerberos 認証用のデータ・ソースを構成します。 オプション: この接続は、ユーザーの偽名を使用した SSO をサポートします。これには追加の構成が必要です。 Kerberos
- 接続を使用する予定のサービスが Kerberos をサポートしていることを確認します。 詳しくは、 Cloud Pak for Data での Kerberos 認証を参照してください。
- 管理者は、以下のセットアップ・ステップのいずれかを実行する必要があります。
- Kerberos (SSO なし): Kerberos 認証を使用するためのプラットフォーム接続の有効化
- Kerberos SSO: Kerberos SSO の構成
Apache HDFS への接続の作成
接続 資産 を作成するには、以下の接続の詳細が必要です。 WebHDFS URL は必須です。
接続フォームで使用可能なプロパティーは、 Hive データ・ソースに表を書き込むことができるように「 接続先 Apache Hive 」を選択したかどうかによって異なります。
- WebHDFS URL は、 HDFS にアクセスします。
- Hive ホスト: Apache Hive サーバーのホスト名または IP アドレス。
- Hive データベース: Apache Hive のデータベース。
- Hive ポート番号: Apache Hive サーバーのポート番号。 デフォルト値は
10000です。 - Hive HTTP path: サーバーが HTTP トランスポート・モード用に構成されている場合のエンドポイントのパス (gateway/default/hive など)。
- SSL 証明書 (必要な場合、Apache Hive サーバーによって要求されます)。
認証方式
Kerberos 資格情報 または ユーザー名とパスワード を選択できます。
Kerberos 資格情報 の場合、 認証の前提条件 を完了する必要があり、以下の接続の詳細が必要です。 Kerberos Connect to Apache Hive を選択した場合は、 Hive の以下の詳細も必要です。
- データ・ソース用に構成されたサービス・プリンシパル名 (SPN)。
- Kerberos 化されたデータ・ソースに接続するためのユーザー・プリンシパル名。
- 鍵配布センター (KDC) に対する認証に使用されるユーザー・プリンシパル名のキータブ・ファイル。
ユーザー名とパスワード の場合、 Apache Hive に接続する場合は、 Hive ユーザーとパスワードの値も指定します。
資格情報 および 証明書 の場合、プラットフォーム用にボールトが構成されており、サービスがボールトをサポートしている場合は、シークレットを使用できます。 詳しくは、 接続でのボールトからのシークレットの使用 を参照してください。
連邦情報処理標準 (FIPS) 準拠
この接続は FIPS 準拠であり、FIPS 対応クラスターで使用できます。
Apache HDFS のセットアップ
サポートされるファイル・タイプ
Apache HDFS 接続は、Avro、CSV、Delimited text、Excel、JSON、ORC、Parquet、SAS、SAV、SHP、および XML の各ファイル・タイプをサポートします。
テーブル・フォーマット
接続 Apache HDFS では、フラットファイルに加えて、以下のデータレイクテーブル形式をサポートしています: Delta Lake および Iceberg。