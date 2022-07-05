Etiquetas
Cloud

Un enfoque de cuatro pasos para verificar la resiliencia de las aplicaciones nativas de la nube

Imagen abstracta generada digitalmente de múltiples cubos en tonos azules y morados

¿Cómo sabe si una solución es "lo suficiente resiliente" y cómo sabe si sus pruebas cubren los escenarios necesarios?

El paradigma de la arquitectura nativa de la nube existe desde hace bastante tiempo. En el núcleo de la arquitectura nativa de la nube hay componentes funcionales cohesivos e independientes que aportan agilidad empresarial, escalabilidad y resiliencia, contribuyendo a un tiempo acelerado de lanzamiento al mercado, ventajas competitivas y costos optimizados. Este paradigma ha sido apoyado activamente a través de un panorama tecnológico polígloto.

Las soluciones realizadas utilizando la combinación anterior de arquitectura y panorama tecnológico pueden resultar bastante complejas de mantener y gestionar, principalmente debido a la gran cantidad de componentes y múltiples marcos tecnológicos necesarios para su realización. Una aplicación subóptima de las prácticas de diseño e ingeniería aumenta exponencialmente la complejidad y los riesgos de mantenimiento de dichas soluciones.

     

    ¿Qué es la resiliencia?

    La "resiliencia" es una de esas prácticas de ingeniería que es crítico para el éxito/fracaso de cualquier iniciativa de transformación digital. Como sabrá, la resiliencia contribuye directamente a la disponibilidad general de la solución a través de métricas como el tiempo medio de recuperación (MTTR) y el tiempo medio entre fallos (MTBF), y también es directamente responsable de crear/romper una experiencia de usuario transformadora.

    La resiliencia es básicamente la capacidad de un sistema para resistir los fallos. Aunque los fallos en los sistemas pueden manifestarse en última instancia como errores o falta de disponibilidad de un componente/sistema, la lista de factores que pueden causar fallos en un sistema distribuido nativo de la nube es significativa.

    Ya hay mucho material que se centra en cómo “implementar” la resiliencia en aplicaciones nativas de la nube. La práctica Build for Reliability Garage de IBM proporciona una excelente introducción y marco para la implementación de la resiliencia. También existen marcos como chaos monkey o herramientas como Gremlin que ayudan a "probar" la resiliencia de las aplicaciones.

    Sin embargo, el desafío sigue siendo: ¿cómo verificamos si una solución es "lo suficiente resiliente"? En concreto, ¿cómo sabemos si nuestras pruebas cubren los escenarios necesarios y suficientes? ¿Cómo sabemos qué fallos inducir?

    Nos gustaría proponer el siguiente enfoque de cuatro pasos para abordar el desafío anterior.

    1. Identificar escenarios y componentes arquitectónicos cuya resiliencia debe probarse

    Esto se puede lograr identificando “rutas de recorrido únicas”, es decir, la secuencia o combinación en la que los componentes de su solución se pueden usar para respaldar escenarios funcionales. Estos escenarios y los componentes de soporte proporcionan el conjunto base que debe probarse.

    Por ejemplo, su aplicación puede admitir una o varias de las siguientes opciones:

    • Buscar/navegar por el catálogo de productos a través de una aplicación que invoca microservicios, que obtienen datos de un almacén de datos.
    • Procesos/programadores por lotes que se ejecutan en un tiempo/frecuencia preestablecidos.
    • Eventos publicados sobre temas preconfigurados y procesados mediante la suscripción de microservicios.
    • API expuestas e invocadas por múltiples sistemas de consumo.

    2. Determinar los puntos de fallo

    Una vez que hemos identificado los escenarios y los componentes, el siguiente paso es determinar qué podría "fallar" con estos componentes. Tomemos un ejemplo de un solo microservicio con las siguientes características:

    • Expone una API a través de una pasarela.
    • Está implementado en un marco de contenedores compatible con Kubernetes.
    • Accede a una base de datos.
    • Se integra con un sistema descendente.

    Esta visión se puede elaborar mediante la identificación de las “superficies de fallo”, como se muestra a continuación:

    Diagrama que ilustra una arquitectura en capas para microservicios. En el centro hay un cuadro amarillo con la etiqueta "Núcleo", rodeado por una capa gris con la etiqueta "Pod de microservicio". Fuera hay una capa azul etiquetada como "Nodo", seguida de una capa azul claro etiquetada como "Pasarela API". Más allá hay una capa blanca etiquetada como "Recursos + Sistemas descendentes" y la capa exterior de color melocotón etiquetada como "Computación-Almacenamiento-Red". Cada capa representa un componente de la jerarquía del sistema

    3. Identificar las causas de los fallos en las superficies de fallo

    Cada superficie de fallo identificada en el paso anterior podría fallar por múltiples razones; eso es lo que debemos identificar a continuación. Siguiendo con el mismo ejemplo de antes, al asignar las superficies de fallo a las posibles causas se obtiene la siguiente lista:

    • Núcleo: el propio microservicio central, como unidad de código, podría fallar debido a problemas de falta de memoria, el servidor de aplicaciones podría bloquearse, etc.
    • Pod y nodo de microservicio: el nodo/pod puede fallar en una comprobación de estado. La máquina virtual que aloja la plataforma de contenedores de Kubernetes puede fallar.
    • API Gateway: el motor de API Gateway puede dejar de responder debido a la falta de subprocesos/memoria necesarios para atender las solicitudes.
    • Sistema backend: el sistema backend puede tardar mucho tiempo en responder y el sistema puede bloquearse.
    • Computador/almacenamiento/red: la red entre el microservicio y el sistema de fondo (que podría alojarse en un lugar diferente) puede dejar de funcionar.

    4. Prepararse para el "asalto"

    Las causas y las superficies de fallo pueden utilizarse para crear una matriz como se muestra a continuación. Esto ahora nos permite comprender y planificar la combinación con la que necesitamos planificar los "asaltos" a la solución. Estos, a su vez, ahora se pueden implementar a través de marcos de pruebas de caos, como se mencionó anteriormente:

    Tabla con los pros y los contras de los productos

    Consideraciones adicionales

    Por último, pero no menos importante, las pruebas de fallo por sí solas no serán suficientes. Considere los siguientes escenarios:

    • Además de introducir fallos en una instancia de un componente, tiene que asegurarse de que no hay autoescalado/múltiples instancias ejecutándose en la plataforma en la nube O que todas las réplicas fallen según sea necesario.
    • Para probar un resultado degradado (por ejemplo, a través de la caché), necesitaría tener una capacidad de prueba "antes" y "después".

    Esto requiere capacidades adicionales para complementar sus marcos de pruebas de caos, como Infraestructura como Código (IaC) o reconfiguración dinámica de recursos en la nube.

    Además, dado que las pruebas reales con componentes son caras, también puede considerar capacidades para la verificación "estática", como las siguientes:

    • Validación del descriptor de implementación para ReplicaSet
    • Validación de la configuración de autoescalado para máquinas virtuales
    • Comprobaciones estáticas de código para reintentos, implementación de disyuntores, etc.

    Más información

    En general, creemos que la resiliencia requiere un enfoque no solo posterior al desarrollo, sino durante todo el proceso, desde la identificación de escenarios desde el principio, priorizándolos en función del impacto empresarial y luego utilizando una combinación de "asaltos" estáticos y dinámicos para verificar y validar la resiliencia a nivel de componente. El enfoque que hemos presentado en esta entrada de blog ayudará a abordar los principales desafíos citados en todo este viaje.

    Los servicios de desarrollo y modernización de aplicaciones nativas de la nube de IBM garantizan la infusión de prácticas de ingeniería con la coherencia y el rigor necesarios.

