查找与连接 ( DataStage® )

IBM DataStage 由于不清楚您的数据规模有多大,因此无法确定是否应该使用 Join stage 或 Lookup stage 来合并数据。 以下是决定使用哪种方法的指南:

具有两个要组合的 Dataset。 一个是主 Dataset 或驱动 Dataset,有时称为连接的左侧。 另外的 Dataset 是引用 Dataset,称为连接的右侧。

在所有情况下,都要考虑引用 Dataset 的大小。 如果这些数据占用的内存相对于计算机物理RAM容量过大,那么 Lookup stage 可能会出现内存碎片化问题,因为引用数据集可能无法与其他必须驻留RAM的数据共同容纳于RAM中。 由于每个查找操作通常会导致缺页故障和 I/O 操作,这会使性能变得非常缓慢。

因此,如果参考数据集足够庞大以至于引发问题,请使用连接操作。 连接会对驱动和引用数据集执行高速排序。 如果数据足够大,这会涉及 I/O,但 I/O 是完全高度优化和按顺序的。 排序结束后,连接处理速度非常快,从不会涉及页面调度或其他 I/O。