La “resiliencia” es una de esas prácticas de ingeniería que es crítica para el éxito o el fracaso de cualquier iniciativa de transformación digital. Como sabrá, la resiliencia contribuye directamente a la disponibilidad general de la solución a través de métricas como el tiempo medio de recuperación (MTTR) y el tiempo medio entre fallas (MTBF), y también es directamente responsable de crear/romper una experiencia de usuario transformadora.

La resiliencia es, esencialmente, la capacidad de un sistema para resistir ante los fallos. Si bien las fallas en los sistemas pueden manifestarse en última instancia como errores o falta de disponibilidad de un componente/sistema, la lista de factores que pueden causar fallas en un sistema distribuido nativo de la nube es significativa.

Ya hay mucho material que se centra en cómo “implementar” la resiliencia en aplicaciones nativas de la nube. La práctica Build for Reliability Garage de IBM ofrece una excelente introducción y marco para la implementación de la resiliencia. También existen frameworks como chaos monkey o herramientas como Gremlin que ayudan a "poner a prueba" la resiliencia de las aplicaciones.

Sin embargo, el desafío sigue siendo: ¿cómo verificamos si una solución es "lo suficientemente resiliente"? En concreto, ¿cómo sabemos si nuestras pruebas cubren los escenarios necesarios y suficientes? ¿Cómo sabemos qué fallas inducir?

Nos gustaría proponer el siguiente enfoque de cuatro pasos para abordar el desafío anterior.