Glosario

Los siguientes términos y definiciones se aplican a IBM® Netezza® Replication Services.

BACKLOG: Estadística que mide la cantidad de datos, en bytes, que deben replicarse y aplicarse en la réplica para que sea coherente con el primario. La cantidad de datos es la diferencia entre el número de bytes que fueron procesados por el commit más reciente en la réplica y el número de bytes que fueron procesados en el primario. El backlog indica la carga de trabajo del gestor de colas de replicación en cola.
replicación by-SQL: Método de replicación en el que se ejecutan sentencias SQL idénticas contra datos idénticos en todos los servidores de bases de datos de un conjunto de replicación, de forma que cada resultado es idéntico. Dado que se replican las sentencias SQL y no el efecto neto de las sentencias, y que las sentencias suelen contener muchos menos datos que el efecto neto, la replicación de sentencias SQL proporciona un mayor rendimiento que la replicación por valores. IBM Netezza Replication Services se implementa principalmente mediante la replicación by-SQL. Sin embargo, para garantizar la coherencia primaria y de réplica, IBM Netezza Replication Services utiliza la replicación por valor para los casos en los que una sentencia SQL contiene o da como resultado datos no deterministas, un nodo está marcado como "necesita recuperación" o una variable de sesión está configurada para replicarse por valor. Véase también replicación por valor, determinista.
replicación por valor: Método de replicación en el que el efecto neto de las sentencias SQL de actualización se captura a nivel de fila y se replica en todos los servidores de bases de datos de un conjunto de replicación. El software de replicación evalúa las sentencias sólo en el primario y luego captura y reproduce el efecto neto en las réplicas. Dado que el efecto neto es conocido, la replicación puede soportar diferencias de host que hacen que la ejecución de SQL produzca resultados diferentes en los dos hosts. Debido a la gran cantidad de datos que se replican, la replicación por valores suele tener un rendimiento inferior al de la replicación por SQL. IBM Netezza Replication Services se implementa principalmente mediante el uso de la replicación by-SQL, recurriendo a la replicación by-value, más lenta, cuando los datos replicados se modifican mediante el uso de funciones no deterministas. Véase también replicación by-SQL, determinista.
cambiar la replicación de datos: Véase replicación por valor.
clúster: Colección de sistemas completos que funcionan conjuntamente para proporcionar una única prestación informática unificada. Para la replicación, la configuración de alta disponibilidad requiere gestores de cola de replicación en una configuración en clúster con software de clúster para gestionar los servidores como un servicio de alta disponibilidad.
identificador de secuencia de confirmación: Ver CSI.
número de secuencia de confirmación: Véase CSN.
transacciones simultáneas: Transacciones en las que ninguna se compromete antes de que la otra comience. Es posible que los comandos o consultas de transacciones concurrentes no se hayan ejecutado al mismo tiempo.
CSI: Un par <source-id, CSN>, donde source-id identifica el nodo primario (que puede cambiar con el tiempo) que originó la transacción de actualización concreta y CSN es un identificador de confirmación. Véase también CSN.
CSN: Un número creciente que se asigna a cada transacción replicada en el momento de la confirmación. El orden de confirmación de las transacciones replicadas en el primario define el orden en el que las transacciones se vuelven a ejecutar (o aplicar) en un host de réplica. Puede utilizar el CSN, que aparece en varias vistas y registros de replicación, para realizar un seguimiento de las transacciones comprometidas. El CSN es un ID de confirmación único para todos los nodos del conjunto de replicación; si un nodo cambia de rol, el CSN aumenta con cada nueva confirmación.
Lenguaje de control de datos: Véase DCL.
Lenguaje de definición de datos: Véase DDL.
Lenguaje de manipulación de datos: Véase LMD.
DCL: Conjunto de comandos con los que un usuario puede gestionar una base de datos o un sistema.
DDL: Un lenguaje para describir datos y sus relaciones en una base de datos. Véase también LMD.
deterministic: Una consulta determinista siempre produce los mismos resultados cuando se ejecuta en cada host de un conjunto de replicación. Una consulta no determinista podría producir resultados diferentes. Las funciones matemáticas suelen ser deterministas: por ejemplo, 1 + 1 da como resultado 2 en cada ejecución. RANDOM es un ejemplo de función no determinista; produce un valor impredecible cada vez. IBM Netezza Replication Services detecta y gestiona SQL de actualización no determinista mediante la replicación por valor. El resto de SQL se gestiona mediante replicación by-SQL. Véase también replicación por valor.
recuperación tras desastre: Situación en la que se minimiza la pérdida permanente de datos o funcionalidad debida a un fallo del hardware o software en su entorno operativo. En caso de fallos múltiples, es posible que se produzca una pérdida de datos. Véase también OPR.
Dispositivo de bloques replicados distribuidos: Véase DRBD.
DML: Subconjunto de sentencias de SQL utilizadas para manipular datos. SELECT, INSERT, UPDATE, DELETE y MERGE son sentencias DML.
DRBD: Un sistema de almacenamiento replicado distribuido basado en software para sistemas Linux® que utiliza la duplicación para formar clústeres de alta disponibilidad (HA). La replicación puede utilizar DRBD en configuraciones de alta disponibilidad para reflejar los datos del sistema de archivos en los hosts de HA.
finalmente coherente: Un tipo de modelo de replicación en el que se permite que un sistema vaya por detrás de otro, de forma que un cambio X que se inicia en el primario en el momento T1 seguirá en un momento futuro, T2, en las réplicas. La latencia es la diferencia de tiempo entre T2 y T1. Véase también coherencia sincrónica, latencia.
Datos globales: Privilegios para usuarios y grupos, niveles de seguridad, categorías, cohortes y datos globales (no de objeto). Los datos globales se replican en todos los hosts miembros de un conjunto de replicación, y los cambios se propagan en sentencias SQL (igual que para los datos de usuario replicados).
alta disponibilidad: Ver HA.
HA: Sistema o componente que funciona de forma continua o casi continua. En una configuración de disponibilidad continua, ambos hosts están activos; en una configuración casi continua, como la que utiliza IBM Netezza Replication Services, un host está activo y otro pasivo. Ambas configuraciones de HA eliminan un único punto de fallo al añadir a la redundancia del sistema la detección y reparación de fallos a medida que se producen.
sistema principal: El sistema Linux en el que se ejecuta el software Netezza.
Red de área local (LAN): Para IBM Netezza Replication Services, cualquier red con un tiempo de ping de ida y vuelta insignificante. La latencia de la red es insignificante si no es necesario ajustar la ventana TCP/IP para utilizar plenamente el ancho de banda de la red.
latencia: Una estadística que mide la cantidad de tiempo que una réplica se retrasa con respecto a la primaria: el delta entre el momento de la confirmación más reciente en la réplica y el momento en que la confirmación se procesó en la primaria.
equilibrio de carga: Proceso de distribución uniforme del trabajo entre varios servidores para maximizar el rendimiento de las consultas. Los usuarios son responsables de asignar trabajo a diferentes instancias de Netezza NPS en el conjunto de replicación para lograr el equilibrio de carga.
red de área local: Ver LAN.
servidor de registro: Véase gestor de colas de replicación.
primario: El host de un conjunto de replicación que es la única fuente de cambios en las bases de datos replicadas y en los datos globales. Otros hosts del conjunto de replicación son réplicas. Un administrador puede cambiar el rol de host primario de un host a otro, normalmente en respuesta a fallos e interrupciones planificadas, o para "seguir al sol" a través de zonas horarias. Véase también réplica.
Instancia de Netezza NPS: El servidor de base de datos en un nodo de replicación. Una instancia de Netezza NPS en un conjunto de replicación asume un rol primario (que permite a los clientes realizar consultas de actualización a las bases de datos replicadas y a los datos globales) o un rol de réplica (que sólo permite consultas de selección, no de actualización). Véase también gestor de colas de replicación.
Ancho de Banda de Red: Volumen de datos que puede transmitir una conexión de red. Por ejemplo, 100 megabit Ethernet tiene un ancho de banda de aproximadamente 10 megabytes por segundo, gigabit Ethernet soporta 100 megabytes por segundo y 10 gigabit Ethernet (10 GbE ) soporta 1000 megabytes por segundo. Una LAN suele tener una latencia corta y alcanza fácilmente todo el ancho de banda de la red. En el caso de una WAN, generalmente hay que ajustar la ventana TCP/IP para mantener altas velocidades de transmisión de datos.
registro de calificación: Un registro en el registro de replicación que está disponible para la poda. La disponibilidad viene determinada por los filtros que establecen las variables del sistema ( MAX_LOG_AGE y replPruneRetainCSN ). Los registros que cumplen los requisitos incluyen los archivos de confirmación y sus dependencias que tienen CSN más antiguos que el punto de poda determinado.
RQM: RQM se refiere al software de servicios de replicación.
Software RQM: El software IBM Netezza Replication Services, que debe ejecutarse en el gestor de colas de replicación físico o virtual, no en el host NPS®. El software gestiona la conexión de red y la comunicación entre las instancias de IBM Netezza NPS.
Partición de datos RQM: El volumen de disco local en el gestor de colas de replicación que está reservado para el registro de replicación. El registro de replicación debe configurarse en un volumen reservado, separado tanto del sistema operativo como de los volúmenes de instalación de RQM, para garantizar un funcionamiento estable del sistema durante un evento de "registro lleno". Si ese registro estuviera en una partición común compartida con el sistema operativo y otro software, un evento de "registro lleno" podría bloquear todo el sistema en lugar de simplemente detener la replicación.
Objetivo de punto de recuperación: Véase OPR.
Objetivo de tiempo de recuperación: Véase RTO.
serializabilidad relajada: Véase aislamiento de instantáneas.
base de datos replicada: Una base de datos Netezza que se replica entre los hosts de un conjunto de replicación. Una base de datos replicada se crea añadiendo una base de datos creada a un conjunto de replicación.
transacción replicada: Cualquier transacción de actualización que modifique una base de datos replicada o datos globales. Véase también transacción de actualización.
registro de réplica: La transacción SQL replicada y otros datos que son capturados en el host de replicación primario y almacenados por el gestor de colas de replicación para su reproducción en los hosts de replicación. El registro de replicación se almacena como una colección de archivos en la partición de datos RQM del servidor de registro de replicación.
gestor de colas de replicación: El gestor de colas de replicación y el software PTS que, juntos, descargan el procesamiento de registros de replicación de la instancia de Netezza NPS. El servidor de registro primario almacena el registro de replicación en un disco local y lo transfiere a través de la red a los hosts de servidor de registro de los nodos de replicación.
nodo de replicación: La combinación de una instancia de Netezza NPS (el nodo NPS) y un gestor de colas de replicación.
Conjunto de réplicas: Una colección de nodos de replicación que replican una o más bases de datos replicadas y datos globales. Todos los objetos de usuario (por ejemplo, tablas, vistas y sinónimos) de una base de datos replicada y sus privilegios y contenidos asociados se replican en todos los nodos miembros de un conjunto de replicación. Los hosts de un conjunto de replicación deben tener la mayoría, si no todos, los mismos parámetros de configuración. Véase también nodo de replicación.
retrotraer: Para restaurar los datos modificados por una sentencia SQL al estado en que se encontraban en el último punto de confirmación.
tabla de seguridad por filas: Una tabla de base de datos con etiquetas de seguridad en las filas para filtrar a los usuarios sin los privilegios adecuados.
RPO: La pérdida de datos que se puede tolerar, normalmente expresada como un intervalo de tiempo, para todo un sitio (instancia de NPS y host del gestor de colas de replicación). Por ejemplo, puede establecer el RPO como "no superior a una hora" Si las primarias se caen a las 2 de la p.m. y la replicación falla en la réplica, los datos de la 1:00 p.m. y anteriores deben "eventualmente" estar disponibles en la réplica. Datos entre las 13: p.m y 2:00 p.m es la pérdida de datos tolerada. Un OPR de cero significa que la única pérdida tolerada son las últimas transacciones no comprometidas.
RTO: El tiempo para recuperar el conjunto de replicación dentro del objetivo de punto de recuperación (RPO) y promover un nuevo primario para que puedan ejecutarse nuevas transacciones de actualización replicadas. Supongamos que la replicación falla en la réplica a las 14 p.m 00. Si los datos primarios tardan 15 minutos antes de las 13 p.m 00 horas. para terminar de replicarse y aplicarse en la réplica, la réplica puede promoverse a primaria a p.m 14:15. y empezar a procesar nuevas transacciones. El RTO, en este ejemplo, es de 15 minutos.
red de área de almacenamiento: Ver SAN.
SAN: Una red dedicada de dispositivos de almacenamiento que conecta esos dispositivos con servidores para proporcionar almacenamiento compartido a nivel de bloque. En una SAN, los dispositivos aparecen ante el sistema operativo como conectados localmente.
Seleccionar consulta: Cualquier transacción que seleccione datos de tablas no temporales (sin modificarlos) o que actualice tablas temporales en el nodo de replicación primario o de réplica (pero sólo para la transacción actual, porque las tablas no tienen ámbito de sesión). Las consultas selectas no se replican.
serializable: Una ejecución de los comandos de la base de datos de una colección de transacciones se considera serializable si su efecto es equivalente a la ejecución de aquellas transacciones que se comprometieron, y de ningún comando de las transacciones que no se comprometieron, de una en una hasta su finalización (es decir, la transacción se compromete) en algún orden serial.
aislamiento serializable: Un DBMS proporciona aislamiento serializable si impone la ejecución serializable de las transacciones (para aquellas transacciones que eligen o por defecto el aislamiento serializable). Una implementación de aislamiento serializable generalmente ofrece menos concurrencia y menor rendimiento que la de un nivel de aislamiento más débil. Véase también aislamiento de instantáneas.
secuencia: Objeto de base de datos independiente de cualquier tabla que genera automáticamente valores de clave únicos basados en las especificaciones iniciales del usuario.
aislamiento de instantáneas: Un SGBD proporciona aislamiento de instantánea si cada transacción que se ejecuta bajo este nivel de aislamiento ve una "instantánea" consistente de la base de datos que refleja sólo aquellas transacciones que se comprometieron cuando se inició la transacción en particular y si las actualizaciones o eliminaciones de la misma fila por transacciones concurrentes no están permitidas. (Algunos SGBD aplican esta última propiedad en el momento de la confirmación de la transacción; Netezza la aplica cuando se ejecuta la sentencia concurrente de actualización o eliminación) Netezza admite el aislamiento instantáneo para aplicaciones que requieren una mayor concurrencia que la que permite el aislamiento serializable y que están dispuestas a renunciar a la aplicación de restricciones de coherencia entre filas. El aislamiento de instantáneas se admite para transacciones replicadas con IBM Netezza Replication Services 1.5 y versiones posteriores. Véase también aislamiento serializable.
Replicación de sentencias SQL: Véase replicación by-SQL.
matriz de almacenamiento: Conjunto de uno o más recintos de disco que contienen las bases de datos y tablas de usuario en el sistema Netezza. La matriz de almacenamiento está conectada y es propiedad de un chasis SPU.
ID: Rol en un conjunto de replicación en el que se prohíbe la ejecución de transacciones de actualización contra tablas o secuencias no temporales en una base de datos replicada. Las actualizaciones de tablas temporales y las selecciones de tablas persistentes son totalmente compatibles. Un conjunto de réplicas puede tener un primario, que un administrador puede reasignar, y una o más réplicas. Un host de replicación de réplicas puede realizar transacciones de consulta para el equilibrio de carga, incluyendo la creación y actualización de tablas temporales de alcance transaccional. Véase también primarias.
coherencia sincrónica: Un modelo de replicación en el que una consulta concreta que se realiza en la misma base de datos contra diferentes servidores de bases de datos de un conjunto de replicación siempre devuelve resultados idénticos. Las diferentes bases de datos deben garantizar que todas las transacciones de actualización se aplican a todos los servidores del conjunto de replicación antes de que los resultados sean visibles en cualquier servidor. Garantizar este nivel de coherencia supone una penalización de rendimiento que suele ser prohibitiva a través de una WAN. Véase también finalmente coherente.
Ventana TCP/IP: Parámetro de configuración del kernel de Linux que se utiliza para ajustar el software de red TCP/IP de modo que utilice plenamente el ancho de banda de la red en una red de área extensa (WAN).
tabla temporal: Tabla privada de una sesión que el SGBD destruye automáticamente al final de una sesión o transacción.
transacción: Grupo de operaciones de base de datos que se combinan en una unidad lógica de trabajo que se consigna o se revierte en su totalidad.
transacción solicitud/solicitud: Reejecución en un nodo réplica de una transacción de actualización replicada que se originó en un nodo primario.
bifurcación de transacciones: Un estado de replicación de error que resulta cuando múltiples primarios en un conjunto de replicación ejecutan diferentes transacciones de actualización, comenzando en una transacción raíz común. Por lo general, IBM Netezza Replication Services evita que se produzcan bifurcaciones de transacciones imponiendo un único primario activo cada vez. Sin embargo, en determinadas circunstancias (como un error de red), las tareas de recuperación pueden dar lugar a una bifurcación de la transacción, que suspende el nodo local. Debe resolver la bifurcación en todos los nodos para garantizar un conjunto coherente de datos de registro antes de volver a activar la replicación.
Nivel de aislamiento de la transacción: Descripción de las restricciones a la ejecución de una transacción, concurrente con otras transacciones. La norma ISO SQL define cuatro niveles de aislamiento: lectura no comprometida, lectura comprometida, lectura repetible y serializable. Se han definido e implementado otros niveles de aislamiento útiles que no están en la norma: en particular, el aislamiento instantáneo, que es más fuerte que la lectura repetible pero no tanto como el aislamiento serializable. Por lo general, los SGBD individuales no admiten todos los niveles de aislamiento. Netezza sólo admite el aislamiento serializable (el nivel de aislamiento por defecto) y el aislamiento snapshot. Véase también aislamiento de instantáneas.
Actualizar transacción: Cualquier transacción que cree, borre o modifique datos no temporales. Este término abarca no sólo las sentencias UPDATE, sino también DELETE, INSERT, CTAS (Create Table As Select), CREATE, ALTER, DROP, GRANT y REVOKE. Las consultas (como SELECT) no se replican. Las transacciones de actualización pueden aplicarse a tablas temporales, pero estas tablas sólo tienen ámbito de sesión y se eliminan al final de la transacción.
vista: Una vista puede ser una tabla virtual o una consulta almacenada. Los datos accesibles a través de una vista no se almacenan en la base de datos como un objeto distinto, sino como una sentencia SELECT. El conjunto de resultados de la sentencia SELECT forma la tabla virtual que devuelve la vista.
máquina virtual: Ver VM.
Máquina virtual: En lo que respecta a la replicación, se trata de un servidor virtual en la nube que proporciona funciones de gestor de colas de replicación.
Red de área amplia: Véase WAN.
WAN: Para IBM Netezza Replication Services, cualquier red con una latencia de ida y vuelta lo suficientemente grande como para ralentizar la transferencia de datos. Si la latencia es lo suficientemente grande como para ralentizar la transferencia de datos, la ventana TCP/IP puede ampliarse para aumentar el rendimiento. Los servidores de registro de replicación están conectados a través de una WAN.
ancho de banda limitado por ventanas: El tamaño de la ventana TCP/IP dividido por la latencia de la red, que indica el rendimiento máximo alcanzable para una configuración WAN concreta para una ventana TCP/IP determinada. Por ejemplo, una conexión de 1 GbE (que admite hasta aproximadamente 100 MB/s) con 100 ms de latencia en una ventana predeterminada de 128 KB tiene un ancho de banda limitado por ventana de 1280 KB/s 1.2 MB/s). La misma conexión con una ventana de 10 MB tiene un ancho de banda limitado por ventana de 100 MB/s.