Desvío de datos

El rendimiento del sistema está directamente vinculado con la distribución uniforme de los datos de usuario entre todas las secciones de datos del sistema. Cuando se crea una tabla y se cargan a continuación los datos en el sistema, las filas de la tabla se deben distribuir de manera uniforme entre todas las secciones de datos. Si algunas secciones de datos tienen más filas de una tabla que otra, las secciones de datos con más datos y las SPU que las gestionan trabajarán más, durante más tiempo y necesitarán más recursos y tiempo para completar sus trabajos. Estas secciones de datos y las SPU que los gestionan se convierten en un cuello de botella de rendimiento para las consultas. La distribución poco uniforme de los datos se denomina desvío. Una distribución de tabla óptima no tiene ningún desvío.

Importante: Si configura el sistema para utilizar la distribución aleatoria de trozos, las tablas que se crean con DISTRIBUIR EN ALEATORIO se sesgan intencionadamente hacia uno o un número reducido de extensiones para reducir el espacio asignado. Estas tablas fragmentadas suelen ser tablas muy pequeñas que caben dentro de una o varias extensiones y, por lo tanto, no se ven tan afectadas por el sesgo como las tablas más grandes con millones de filas.

El desvío se puede producir cuando se distribuyen o se cargan los datos en los siguientes tipos de tabla:

Tablas base: Los administradores de bases de datos definen las tablas en las bases de datos de los datos de usuario.
Tablas internas de la sesión: Las aplicaciones o los usuarios SQL crean tablas temporales.