パイプライン

パイプラインは、名前クレンジングと住所クレンジングおよびそれらの標準化、データ品質管理、およびエンティティー解決を実行するコンポーネントです。またパイプラインでは、システム構成に基づき、関係解決が実行され、アラートが生成されます。

パイプラインでは、次の 3 つの中核処理が実行されます。
  • 認識。データの標準化、クレンジング、拡張、および品質チェックを実行することにより、入力データの最適化が行われます。
  • 解決。エンティティーの解決が行われます。
  • 関連付け。関係の検出とアラートの生成が行われます。

パイプラインは、パイプライン・ノードによりホストされます。

並列処理用のパイプラインを構成できます。これにより、1 つのパイプライン・コマンドで複数の並列パイプライン処理スレッドが生成され、システムで複数のデータ要求を同時に処理できます。この機能は、システム・パフォーマンスの改善、データ処理時間の削減、およびハードウェア・メモリー制約の緩和につながることがあります。

並列パイプライン処理機能は、次の 2 つの場所で構成します。
  • グローバルな並行性設定は、構成コンソールの「システム構成」タブの「パイプラインのデフォルトの並行性 (Pipeline default concurrency)」パラメーターで制御します。この値により、パイプライン開始コマンドから開始される並列処理スレッドの数が決まります。このパラメーターのデフォルト値は 1 です。すなわち、このパラメーターを編集しない限り、1 つのパイプライン処理スレッドしか開始されません。
  • ローカルの並行性設定 (パイプライン・ノード別) は、パイプライン構成ファイルで構成できます。パイプライン・ノード別のパイプライン構成ファイルで並行性パラメーターおよび値を指定すると、その値によりグローバル・システム・パラメーターがオーバーライドされます。そのパイプライン・ノードでパイプライン開始コマンドを発行すると、パイプライン構成ファイルに指定されている数と同じ数の並行パイプライン処理スレッドが開始されます。