El paradigma de la arquitectura nativa de la nube existe desde hace bastante tiempo. En el núcleo de la arquitectura nativa de la nube hay componentes funcionales cohesivos e independientes que aportan agilidad empresarial, escalabilidad y resiliencia, contribuyendo a un tiempo acelerado de lanzamiento al mercado, beneficios competitivos y costos optimizados. Este paradigma ha sido apoyado activamente a través de un escenario tecnológico políglota.
Las soluciones realizadas utilizando la combinación anterior de arquitectura y paisaje tecnológico pueden resultar bastante complejas de mantener y gestionar, principalmente debido a la gran cantidad de componentes y múltiples infraestructuras necesarias para su realización. La implementación subóptima de las prácticas de diseño e ingeniería aumenta exponencialmente la complejidad y los riesgos de mantenimiento de este tipo de soluciones.
La “resiliencia” es una de esas prácticas de ingeniería que es crítica para el éxito o el fracaso de cualquier iniciativa de transformación digital. Como sabrá, la resiliencia contribuye directamente a la disponibilidad general de la solución a través de métricas como el tiempo medio de recuperación (MTTR) y el tiempo medio entre fallas (MTBF), y también es directamente responsable de crear/romper una experiencia de usuario transformadora.
La resiliencia es, esencialmente, la capacidad de un sistema para resistir ante los fallos. Si bien las fallas en los sistemas pueden manifestarse en última instancia como errores o falta de disponibilidad de un componente/sistema, la lista de factores que pueden causar fallas en un sistema distribuido nativo de la nube es significativa.
Ya hay mucho material que se centra en cómo “implementar” la resiliencia en aplicaciones nativas de la nube. La práctica Build for Reliability Garage de IBM ofrece una excelente introducción y marco para la implementación de la resiliencia. También existen frameworks como chaos monkey o herramientas como Gremlin que ayudan a "poner a prueba" la resiliencia de las aplicaciones.
Sin embargo, el desafío sigue siendo: ¿cómo verificamos si una solución es "lo suficientemente resiliente"? En concreto, ¿cómo sabemos si nuestras pruebas cubren los escenarios necesarios y suficientes? ¿Cómo sabemos qué fallas inducir?
Nos gustaría proponer el siguiente enfoque de cuatro pasos para abordar el desafío anterior.
Esto se puede hacer identificando "rutas transversales únicas", esencialmente, la secuencia/combinación en la que los componentes de su solución se pueden utilizar para admitir escenarios funcionales. Estos escenarios y los componentes de soporte proporcionan el conjunto base que debe probarse.
Por ejemplo, su aplicación puede admitir uno o más de los siguientes:
Una vez que hayamos identificado los escenarios y componentes, el siguiente paso es determinar qué podría “fallar” con estos componentes. Tomemos un ejemplo de un solo microservicio con las siguientes características:
Esta vista se puede armar mediante la identificación de las "superficies de falla", como se muestra a continuación:
Cada superficie de falla identificada en el paso anterior podría fallar por múltiples razones; eso es lo que debemos identificar a continuación. Siguiendo con el mismo ejemplo anterior, al relacionar las superficies de fallo con las posibles causas, se obtiene la siguiente lista:
Las causas y las superficies de falla se pueden utilizar para crear una matriz como se muestra a continuación. Esto ahora nos permite comprender y planificar la combinación con la que necesitamos planificar los "ataques" a la solución. Estos, a su vez, ahora se pueden implementar a través de marcos de pruebas de caos, como se mencionó anteriormente:
Por último, pero no menos importante, las pruebas de fallas por sí solas no serán suficientes. Considere los siguientes escenarios:
Esto requiere capacidades adicionales para complementar tus marcos de pruebas de caos, como Infraestructura como Código (IaC) o reconfiguración dinámica de recursos en la nube.
Además, dado que las pruebas reales con componentes son costosas, es posible que también desee considerar capacidades para la verificación “estática”, como las siguientes:
En general, pensamos que la resiliencia requiere enfoque no solo posterior al desarrollo, sino durante todo el proceso, desde la identificación de escenarios desde el principio, priorizándolos en función del impacto en el negocio y luego utilizando una combinación de ataques estáticos y dinámicos para verificar y validar la resiliencia a nivel de componente. El enfoque que hemos presentado en esta entrada en el blog ayudará a abordar los desafíos clave citados en todo este recorrido.
Los servicios de modernización y desarrollo de aplicaciones nativas de la nube de IBM aseguran la infusión de prácticas de ingeniería con la consistencia y el rigor requeridos. Consulte los siguientes enlaces para obtener más información:
