これは、すぐに利用できるSparkモニタリングの別のメカニズムです。Query Execution Listenerを使用すると、開発者は非常に低レベルのメトリクスに焦点を当てる代わりに、クエリ完了イベントにサブスクライブすることができます。論理プランや物理プラン、実行メトリクスなど、実行されたクエリに関する高レベルのメタデータを提供します。

クエリによって読み取られたり書き込まれたりしたレコードなどのメトリクスを取得できますが、今回は特定のタスク/ジョブ/ステージではなく、クエリ全体について集計されます。

また、データの場所やスキーマなどの計画から非常に有用な情報を抽出することもできます。データフレームの次元とともにスキーマを抽出して保管し、以前の実行と比較することで、問題が発生した場合にアラートを発することができます。

ただし、低レベルのSpark APIを使用する必要があるため、プランからのデータ抽出は複雑になる可能性があります。

また、メトリクスの保存やアラート・メカニズムの実装に伴うすべての運用上の負担は引き続き存在します。Sparkから得られるのは単なるメタデータですそれを利用するのは開発者の責任です。

以下は、プランとメトリクスを出力する単純なクエリ実行リスナーの例です。

パブリック クラス ExampleQueryExecutionListener は QueryExecutionListener { /** * Print plan and query metrics * * @param funcName * @param qe * @param durationNs */ @Override public void onSuccess(String funcName, QueryExecution qe, long durationNs) { System.out.println(qe.executedPlan().prettyJson()); Iterator it = qe.executedPlan().metrics().iterator(); while (it.hasNext()) { Tuple2 next = it.next(); System.out.printf("Key: %s, value: %s%n", next._1(), next._2().value()); }を実装します。 } @Override public void onFailure(String funcName, QueryExecution qe, Exception exception) { } }

クエリ実行リスナーは、プログラムによって、または構成を通じて追加できます。

アプリケーション・コード：SparkSessionpark = SparkSession.builder().getOrCreate();

spark.listenerManager().register(newExampleQueryExecutionListener());

spark-submit経由：

spark-submit --conf "spark.sql.queryExecutionListeners=ai.databand.ExampleQueryExecutionListener"

低レベルの監視を実装するのは深刻な作業になる可能性がありますが、「システム」監視による監視には、計算上のオーバーヘッドが発生しないという大きなメリットがあります。メタデータはSpark内部によって出力および記録されるため、クエリの実行時間に対するペナルティは与えられません。

監視にリスナーを使用すると、アプリケーション・コードに触れることを回避できます。これは、既存のアプリケーションやレガシー・アプリケーションに関するデータを追跡したいものの、変更を加えるための予算がない場合に大きなメリットをもたらします。リスナーを書き、それをSpark構成経由で渡すだけで、データの全体像を把握できます。