Recuperación tras desastre

IBM Sterling Order Management System adopta un completo plan de recuperación ante desastres para evitar o minimizar la pérdida de datos y la interrupción de la actividad empresarial a causa de un evento catastrófico poco probable, que podría romper la continuidad empresarial de su entorno de Producción.

Este plan de recuperación tras desastre le proporciona la capacidad de recuperar las prestaciones del entorno de producción y reducir el impacto de una interrupción del sitio. El plan cambia su sistema Sterling™ Order Management para utilizar un entorno de recuperación ante desastres (DR), del que se realizan copias de seguridad y se sincroniza con los datos más recientes de Producción necesarios para la continuidad del negocio.

Nota: El plan de recuperación tras desastre de Sterling Order Management System sólo es aplicable para entornos de producción.

El entorno de preproducción está dimensionado para alojar la instancia regular de Sterling Order Management System de preproducción (para tareas de soporte de rendimiento y producción) y la instancia de DR latente (como contingencia). Ambas instancias comparten máquinas virtuales para recursos web, de aplicación y de base de datos. Durante un desastre declarado, IBM pone en cuarentena su entorno de preproducción, que está totalmente dedicado a restaurar la continuidad del negocio. La arquitectura de recuperación tras desastre incluye todos los servidores, la red, los scripts y las bases de datos implicados en la copia de seguridad de datos y los conmutadores entre entornos de preproducción y producción, según sea necesario. El centro de datos de preproducción se aloja en un centro de datos de IBM® SoftLayer® distinto del centro de datos de su entorno de producción, normalmente en una ciudad o ubicación geográfica diferente.

Como parte del plan de recuperación tras desastre, los datos operativos y transaccionales del entorno de producción, como los pedidos, se replican periódicamente a lo largo del día y se realiza una copia de seguridad de los mismos en la instancia de recuperación tras desastre. La web del entorno de producción y los datos de la aplicación se copian cada hora en la instancia de recuperación tras desastre. Los datos de aplicación incluyen artefactos de sistemas de archivos, como por ejemplo CSS, imágenes, contenido estático y artefactos de extensiones SaaS. IBM también realiza una copia de seguridad diaria de los datos clave del entorno y del sitio, como los datos de infraestructura y configuración, las extensiones y los archivos. Diariamente, se realizan también copias de seguridad de las bases de datos del entorno de producción. También se realizan copias de seguridad locales, que se pueden utilizar para sucesos de recuperación a pequeña escala, y se mueven a una ubicación de almacenamiento remota. Los registros de transacciones se mantienen en los centros de datos activos y de recuperación tras desastre.

Sin cambios en las URL: Durante la recuperación ante desastres, su entorno de producción se ejecuta temporalmente en nuestro centro de datos de preproducción. Sin embargo, las mismas URL siguen siendo las mismas y no es necesario que realices ninguna acción.
Certificados: No es necesario añadir nuevos certificados para el DC de preproducción y todas las conexiones siguen funcionando como hasta ahora.
Lista blanca de red: Se trata de una configuración única para evitar cualquier problema relacionado con la red durante la recuperación ante desastres. Si su configuración de integración implica incluir en la lista de permitidos los rangos de IP o los dominios, asegúrese de que tanto el centro de datos de producción como el de recuperación ante desastres (PO) estén incluidos en la lista blanca.; Además, si resuelve y añade a la lista blanca las direcciones IP mediante ping o realizando un nslookup del dominio, se recomienda resolver y añadir a la lista blanca las direcciones IP del entorno de preproducción. Esto garantiza una integración ininterrumpida cuando se utiliza la preproducción como entorno de producción temporal durante la recuperación ante desastres.

Los datos del entorno de producción, incluidos los datos web y de aplicaciones, se replican y se guardan en una red privada IBM SoftLayer entre los entornos de producción y preproducción. Sus bases de datos de recuperación ante desastres se mantienen siempre en un estado casi listo, por lo que puede utilizar esta red para replicar datos en un modo casi sincrónico mediante la opción de recuperación ante desastres de alta disponibilidad (HADR).

Objetivos de nivel de servicio (SLO)

Cuando IBM determina razonablemente que se ha producido un desastre, se inicia el proceso de recuperación tras desastre. IBM cuenta con un completo plan de recuperación tras desastre que utiliza esfuerzos comercialmente razonables para restaurar el sistema de Sterling Order Management a las operaciones normales. Durante el proceso de recuperación tras desastre, el personal de IBM se comunica con usted cada hora para actualizarle el estado del proceso de recuperación. Esta actualización incluye el progreso hacia el objetivo de tiempo de recuperación y el objetivo de punto de recuperación. El objetivo de tiempo de recuperación es el tiempo transcurrido entre la declaración del desastre y la restauración del servicio de entorno de producción. El objetivo del punto de recuperación es un momento concreto en el pasado en el que el entorno se recupera, lo que indica la cantidad de pérdida potencial de datos o antigüedad de los datos que deben recuperarse de las copias de seguridad de recuperación tras desastre para que se reanuden las operaciones normales.

El objetivo de nivel de servicio (SLO) para la continuidad del negocio que se ofrece para IBM Sterling Order Management System es de 4 horas para el objetivo de punto de recuperación (RPO) y de 8 horas para el objetivo de tiempo de recuperación (RTO).
Además, si adquiere opciones para la mejora de SLO, el RPO esperado es de 2 horas y el RTO es de 4 horas.

Proceso

Durante un desastre identificado, se completan los pasos siguientes como parte del proceso de recuperación tras desastre:

En el caso improbable de que el entorno de producción o el centro de datos primario experimente un problema grave, que, después de la investigación, se considera irreversible, IBM declara que se ha producido un desastre. A continuación, IBM comienza a implementar el proceso de recuperación tras desastre.
IBM emite una alerta para usted y para cualquier otra parte relevante, como sus business partners, si está utilizando un business partner para dar soporte a sus servicios.
IBM activa el proceso de recuperación tras desastre para conmutar el entorno de preproducción a un entorno de producción temporal. Cuando el entorno de preproducción se está utilizando como un entorno de producción temporal, el entorno de preproducción no está disponible. Cuando se restaura el entorno de producción normal, el entorno de preproducción vuelve a estar disponible.
Como parte de esta activación, IBM activa los servidores de aplicaciones de recuperación tras desastre en la base de código de producción de copia de seguridad. IBM también valida que los sistemas de archivos de red para el sitio estén montados y disponibles.

Para que el sitio esté disponible para los usuarios, IBM desactiva los servidores web del entorno de producción dentro de los equilibradores de carga globales. A continuación, IBM activa los servidores web de recuperación tras desastre dentro de los equilibradores de carga globales. Cuando este conmutador se ha completado, IBM le notifica que el sitio está disponible.
Usted y sus business partners pueden realizar ejercicios y pruebas de simulación de recuperación tras desastre. Para determinar cómo probar mejor el proceso de recuperación tras desastre, trabaje con IBM para crear el plan de pruebas y completar las pruebas.
Verifique que las funciones y los valores del sitio funcionan en el sitio de instancia de recuperación tras desastre activo. Lleve a cabo las tareas siguientes:
- IBM Sterling Order Management System) Acceda a la interfaz de usuario de la aplicación, incluidas las aplicaciones de canal.
- Pruebe la integridad de los datos de la base de datos de recuperación tras desastre. Solicite consultas de base de datos de recuperación tras desastre para ayudar a validar la integridad de los datos.
- Pruebe el protocolo Telnet de la red para confirmar la vía de acceso de la red.
- Complete un proceso de transacción de pedido a través de la tienda a los sistemas de fondo locales que devuelven datos o confirmación del proceso a la tienda. Asegúrese de que planea minuciosamente este proceso de transacción porque puede insertar datos de pedidos no deseados en el sistema de fondo del cliente.
El entorno de producción se restaura. Si el entorno de producción no se puede restaurar, el entorno de producción de recuperación tras desastre se convierte en el entorno de producción permanente y se crea un nuevo entorno de preproducción.

Limitaciones

No puede utilizar el entorno de preproducción cuando el entorno de producción está en modalidad de recuperación tras desastre. Asegúrese de que inhabilita las integraciones que estaban conectadas al entorno de preproducción mientras el entorno de recuperación tras desastre está activo.