En los sistemas de bases de datos hay una fuerte tendencia a que una proporción relativamente pequeña de datos sea acceddida en tiempo real, pero la mayoría de los datos se utiliza con poca frecuencia. Con tantos datos con diferentes niveles de uso, sería beneficioso si podemos agrupar los datos sobre la base de algunos criterios y utilizar diferente hardware para administrar mejor el equilibrio entre el rendimiento y el costo. Ahí es donde entra el de almacenamiento multi-temperatura. La nueva función de almacenamiento de base de datos Multi-Temperatura de DB2 10 introduce esta nueva forma de priorizar los datos.

Félix R. González Lavín, Data Migration Specialist, IBM

Felix GonzalezFélix R. González Lavín se desempeña como Data Migration Specialist para Information Management en IBM para México y Latinoamérica. Félix es Ingeniero en Tecnologías de la Informática y Computación por la Universidad la Salle, Campus Victoria. Ha trabajado más de 6 años con distintas plataformas de Tecnologías de Información. Actualmente forma parte del Information Management Technology Ecosystem (IMTE) para Big Data Warehouse.



24-12-2012

Almacenamiento multi-temperatura (Multi-Temperature Storage)

Con el lanzamiento de DB2 10, un nuevo nivel de almacenamiento ha llegado para el beneficio de los clientes llamado "Almacenamiento multi-temperatura" o "Multi-Temperature Storage", en inglés. Estas nuevas características responden al actual crecimiento en los requerimientos de almacenamiento, provocado por los cambios tecnológicos, el aumento de datos no estructurados y los mandatos normativos.

En los sistemas de bases de datos, hay una fuerte tendencia a que una proporción relativamente pequeña de datos se accede en tiempo real y la mayoría de los datos se utilizan con poca frecuencia. Esta diferencia en la frecuencia de acceso plantea importantes retos si se quiere optimizar el uso del almacenamiento rápido (fast storage), tratando de no almacenar los datos históricos allí. En un almacén de datos (data warehouse) se consumen cantidades crecientes de almacenamiento, la utilización óptima de almacenamiento rápido se vuelve cada vez más importante en la administración de los costos de almacenamiento.
Con tantos datos con diferentes usos, sería beneficioso si podemos agrupar los datos sobre la base de algunos criterios y utilizar diferente hardware para administrar mejor el equilibrio entre el rendimiento y el costo. Ahí es donde entra el de almacenamiento Multi-Temperatura.

La nueva función de almacenamiento de base de datos Multi-Temperatura de DB2 10, introduce una nueva forma de priorizar los datos. Permite a los usuarios administrar diferentes niveles de dispositivos de almacenamiento eficazmente mediante la introducción del concepto de storage groups.


Administración de datos Multi-Temperatura (Data Management Multi-Temperature)

Los datos dentro de una organización no tienen la misma prioridad de uso. Los datos críticos o actuales se utilizan con más frecuencia que los datos históricos. Para comprender mejor este conjunto de datos, tenga en cuenta el concepto de la Temperatura de los Datos (Data Temperature).

El almacenamiento Multi-Temperatura ofrece la posibilidad de asignar prioridad a los datos (hot, warm, cool, cold) y asignar dinámicamente a las diferentes clases de almacenamiento.

  • La Temperatura de los Datos "Data Temperature" significa priorizar los datos definidos por el negocio.
  • La Temperatura de los Datos "Data Temperature" es inversamente proporcional al volumen.
  • Una pequeña porción de datos hot vs. una gran porción de datos warm/cold.

Los datos pueden cambiar de temperatura:

  • A medida que los datos envejecen.
  • Como resultado de criterios de negocio, tras los cambios de temperatura.

En la siguiente grafica podemos visualizar el comportamiento de los datos dependiendo la frecuencia de acceso.

Figura 1. Temperatura de los datos (mayor frecuencia de acceso - mayor temperatura).

La prioridad de los datos se basa en:

  1. La frecuencia de acceso.
  2. Acceso en tiempo aceptable, definido por la calidad de servicio (QoS) especificado en el acuerdo de nivel de servicio (SLA).
  3. La volatilidad de los datos.
  4. Solicitud de requerimientos.

Storage Groups

Los Storage Groups permiten la flexibilidad necesaria para implementar la administración de datos Multi-Temperatura (Multi-Temperature Data Management) en los Automatic Storage table spaces.
Diferentes Storage Groups pueden representar diferentes clases de almacenamiento:

  • Los datos Hot se asignaran a los storage groups con dispositivos rápidos.
  • Los datos warm o cold se asignaran a dispositivos más lentos.

Un Storage Group contiene las rutas de almacenamiento con características similares. Algunos atributos críticos de almacenamiento subyacente a considerar cuando se crea o modifica un storage group son la capacidad de almacenamiento disponible, la latencia, las tasas de transferencia de datos, y el nivel de protección RAID.

Como se puede observar en la Figura 2, el uso de los Storage Groups es de mantenimiento sencillo, nos permite almacenar los datos basado en la prioridad, y reduce el TCO (Costo Total de Operaciones).

Figura 2. Ventajas en el uso de los Storage Groups.

Como se puede observar en la Figura 3, podemos ver la distribución de los Storage Groups (Hot, Warm, Cold) en las distintas particiones y los diferentes discos físicos en los que se almacenan.

Figura 3. Aprovechamiento de los Storage Groups.


Cómo cambiar la temperatura de sus datos

Sentencias para cambiar la temperatura a los datos.

Use ALTER TABLESPACE para cambiar la temperatura del table space.

ALTER TABLESPACE  tbSpc  USING STOGROUP sg_target

Un REBALANCE implícito ocurre cuando un table space es cambiado entre los storage groups.

Puede monitorear el progreso de REBALANCE mediante el uso de la nueva función MON_GET_REBALANCE_STATUS.

En el siguiente diagrama Figura 4, un ejemplo de cómo mover un table space de un storage group a diferentes storage groups.

Figura 4. Almacenamiento en los diferentes Containers.

Cuando el table space es movido a un nuevo storage group, los containers en el antiguo storage group se encuentra en estado "drop pending". Después de que la sentencia ALTER TABLESPACE se ha realizado, los containers se asignan en el nuevo storage path y realiza un rebalanceo de los datos de los containers existentes a los nuevos containers. El numero y tamaño de los containers para crear dependerá tanto del número de storage paths en el storage group y de la cantidad de espacio libre en los nuevos storage paths. Los antiguos containers son eliminados, después de que los datos han sido movidos.


Integración de DB2 WLM con el Almacenamiento Multi-Temperatura

Las actuales perspectivas de WLM son user-centric (who) y request-centric (what).

La introducción de una nueva perspectiva "data-centric" (where).

  • Nuevo atributo data tag:
    • Para storage group o table space.
    • La prioridad se puede dar a las solicitudes basado en el acceso de datos [Valores 1 (alto) - 9 (bajo)].

El WLM work class y el umbral DLL se han ampliado para soportar el nuevo atributo data tag.

  • El optimizador de DB2 (DB2 optimizer) puede proporcionar una lista estimada de data tags para los datos afectados por una consulta en tiempo de compilación.
    • El data tag puede influir en la colocación inicial de la actividad en un service class.

El nuevo umbral data tag DATATAGINSC utiliza información que está disponible en tiempo de ejecución para volver a asignar una actividad a una subclase de servicio (service subclass) diferente.


Almacenamiento Multi-Temperatura – Escenario de ejemplo

OBJETIVO: Reducir los costos de almacenamiento en un Warehouse cumpliendo con la calidad de servicio deseada de los requerimientos para el acceso a los 3 últimos trimestres de los datos.

Paso 1: Crear dos storage groups a fin de reflejar los dos niveles de almacenamiento. Esto daría como resultado en la velocidad de transferencia, overhead, etc, esto se calcula mediante la programación a nivel de storage group.

CREATE STOGROUP sg_hot ON '/ssd/path1', '/ssd/path2' DATA TAG 1
CREATE STOGROUP sg_warm ON '/hdd/path1', '/hdd/path2' DATA TAG 5

Los data tags representan la prioridad de negocio de los datos y es usado por el optimizador

Paso 2: Asignar un table space a los storage groups.

CREATE TABLESPACE q1_2011_tbsp USING STOGROUP sg_warm 
CREATE TABLESPACE q2_2011_tbsp USING STOGROUP sg_warm DATA TAG 3
CREATE TABLESPACE q3_2011_tbsp USING STOGROUP sg_hot

Un nuevo trimestre comienza – Escenario de ejemplo

Crear un nuevo table space y cambiar un storage group para el table space 3Q.

  • El table space 4Q residirá en el hot storage.
  • Los datos del 3Q serán movidos y balanceados a un dispositivo de almacenamiento más lento.
CREATE TABLESPACE q4_2011_tbsp USING STOGROUP sg_hot
ALTER TABLESPACE q3_2011_tbsp USING STOGROUP sg_warm DATA TAG 3

El Data Tag cambia para permitir al optimizador el cambio de prioridad de los datos.

ALTER TABLESPACE q2_2011_tbsp DATA TAG 5
  • Sólo los datos que tienen mayor frecuencia de acceso residen en dispositivos de almacenamiento de alta costo y cumplen con los requerimientos de calidad de servicio para el acceso a los datos.
  • La mayor parte de los datos residen en dispositivos de almacenamiento de menor costo.
  • Proporciona una fácil administración para los DBA's.

Automatización de los datos históricos a través de los diferentes niveles de almacenamiento

Con el uso de Optim Configuration Manager se puede definir un job de migración de datos para múltiples niveles de almacenamiento.

  • Optimizar el uso del almacenamiento mediante la configuración de un esquema de almacenamiento Multi-Temperatura.
  • Las políticas de migración de datos históricos pueden ser diseñadas para una, varias o todas las tablas particionadas con range partitions.

Comparativo de almacenamiento Oracle

DB2

  • Utiliza Automatic Storage y Table Partitioning para mover fácilmente tablas particionadas entre diferentes storage groups (libre en las ediciones Enterprise y Advanced Enterprise).
  • Fácil operación en línea (on-line) para mover datos entre diferentes niveles de almacenamiento y temperatura a otros.
  • Utiliza estándares para los file systems de sistema operativo.
  • Integración con WLM para proporcionar prioridad a la carga de trabajo basándose en los datos que se accede.

Oracle

  • Requiere Oracle Partitioning (costo adicional para la versión Enterprise Edition).
  • Mayor manejo de scripts vs manejo de sentencias, no es tan sencillo como el almacenamiento de DB2 Multi-Temperatura.
  • Requiere Automatic Storage Management (ASM) y no utiliza estándares para file systems de sistema operativo.
  • Oracle no tiene integración con los Recursos de Administración de Base de Datos y NO tiene la capacidad para dar prioridad a las consultas basado en la temperatura de los datos.

Conclusión

Gracias a la nueva característica de DB2 10 del Almacenamiento Multi-Temperatura, podemos tener una mejor administración y aprovechamiento de los diferentes dispositivos de almacenamiento, puesto que nos permite almacenar los datos mediante la priorización de nuestra información, que se da con base en la frecuencia de uso. Esto nos brinda grandes ventajas, al tener una mejor distribución de los datos y nos ayuda a reducir costos de IO.

Así, hemos revisado las bondades del Almacenamiento Multi-Temperatura y hemos aprendido cómo modificar y asignar temperatura a los datos.

Recursos

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Information mgmt
ArticleID=853194
ArticleTitle=Almacenamiento multi-temperatura
publish-date=12242012