Una organización global de SRE se vuelve más resiliente con la automatización
El equipo de ingeniería de confiabilidad del sitio (SRE) de IBM desempeña un papel crucial en el mantenimiento de la confiabilidad y la seguridad de las ofertas de SaaS y la infraestructura de servicios gestionados de IBM. Con operaciones en IBM Cloud®, AWS, Microsoft Azure y plataforma Google Cloud, el equipo de SRE ofrece casi 70 soluciones SaaS en todo el mundo con recopilación de grandes cantidades de datos hasta el nivel de microservicios.
Crear una evaluación integral de la resiliencia fue un desafío importante para este equipo. Kevin Yu, ingeniero principal de confiabilidad del sitio, explica: “Nuestros métodos anteriores incluían talleres y un uso extensivo de hojas de cálculo para la evaluación en comparación con nuestro playbook, que literalmente podía llevar meses completar y también era un desafío actualizarlo. Estos métodos carecían de la capacidad de proporcionar una visión holística de la postura de resiliencia de nuestro sistema”.
El equipo de SRE también necesitaba una solución para medir y rastrear con precisión las métricas clave de resiliencia, como la disponibilidad, la recuperabilidad y la observabilidad, a lo largo del tiempo para identificar vulnerabilidades e implementar mejoras de manera efectiva.
Mejorar las revisiones operativas mensuales (MOR) fue otro desafío clave. Las ineficiencias del proceso de MOR existente del equipo de SRE obstaculizaron su capacidad para identificar y resolver problemas rápidamente. Los silos organizacionales complicaron aún más el proceso y dificultaron la alineación de diferentes equipos con una estrategia de resiliencia común.
El equipo de SRE desplegó la plataforma IBM Concert® para reducir los silos, impulsar la mejora continua y desbloquear un enfoque repetible de resiliencia.
La solución combina automatización e insights impulsados por IA en un marco estandarizado y escalable para evaluar, mejorar y mantener la resiliencia.
Antes de implementar IBM Concert, las evaluaciones de resiliencia eran una tarea manual y laboriosa que podía tardar meses. El marco de resiliencia de la solución ha automatizado este proceso con una visión integral de las métricas clave de resiliencia, como la disponibilidad, la recuperabilidad y la observabilidad. La automatización ha reducido significativamente el tiempo y el esfuerzo necesarios, lo que permite al equipo de SRE centrarse en mejorar la solidez y confiabilidad de las aplicaciones.
El proceso de MOR anterior era ineficiente y laborioso, y a menudo requería cientos de horas para extraer y cotejar datos. Con IBM Concert, el equipo de SRE ahora resume y reporta datos de manera más eficiente, y proporciona su información más precisa a sus stakeholders para la evaluación y la planificación estratégica. La solución también consolida datos de diversas fuentes para crear una vista unificada que mejora la capacidad del equipo de SRE para resolver problemas.
Como explica Yu: “Concert nos ayudó a eliminar los silos y ser más productivos. Ahora contamos con una infraestructura escalable para medir, mejorar y mantener la resiliencia de las aplicaciones en IBM”.
El despliegue de la infraestructura de resiliencia en IBM Concert trajo resultados transformadores al equipo de SRE de IBM.
“La solución ha transformado nuestro enfoque de la resiliencia de la aplicación”, dice Yu. “Al automatizar la recopilación de datos de resiliencia clave, abordamos los silos y pusimos en práctica la resiliencia. Como resultado, la postura de resiliencia de IBM Concert redujo los días-persona en una evaluación de postura de resiliencia en toda la empresa de IBM por aplicación en un 62 %, en comparación con la evaluación manual.1
El equipo de SRE dice que la transformación también ha mejorado su productividad y ha fomentado una mejor colaboración con otros equipos. Con el marco estandarizado de la solución, el equipo de SRE puede alinear diferentes partes de la organización a una estrategia de resiliencia común donde ven una mejora en la coordinación general y la comunicación. Además, las capacidades de generación de informes integrales y coherentes han mejorado la transparencia y la responsabilidad dentro de IBM. Los stakeholders internos han indicado que ahora tienen una mejor comprensión de las métricas de resiliencia y la gestión de problemas, lo que lleva a una toma de decisiones más informada.
Al aprovechar la postura de resiliencia de IBM Concert, el equipo de SRE ha logrado un enfoque más optimizado y eficaz para la evaluación de la resiliencia y MOR, lo que ayuda a garantizar que la infraestructura de SaaS y servicios gestionados de IBM siga siendo confiable y segura. “La postura de resiliencia de IBM Concert1redujo las horas-persona del equipo de SRE de IBM dedicadas a MOR en un 72 % en comparación con la producción manual del informe”, dice Yu.
La organización IBM Software SRE es un equipo global enfocado en ofrecer SaaS de producción escalable y de alta disponibilidad para productos de software de IBM. El equipo de Software SRE suministra, despliega, monitorea, mantiene y administra incidentes mediante la estandarización de herramientas, procesos, automatización, runbooks y prácticas. Trabajan en estrecha colaboración con los equipos de desarrollo de software de IBM para diseñar e implementar cambios, con un servicio altamente resiliente durante todo el ciclo de vida del software.
1: Basado en los resultados de una prueba interna. Los resultados individuales pueden variar.
© Copyright IBM Corporation 2025. IBM, el logotipo de IBM, Concert, IBM Cloud e IBM Concert son marcas comerciales o marcas comerciales registradas de IBM Corp., en EE. UU. o en otros países.
Microsoft es una marca registrada de Microsoft Corporation en Estados Unidos, en otros países o en ambos.
Los ejemplos presentados son solo ilustrativos. Los resultados reales variarán en función de las configuraciones y condiciones del cliente y, por lo tanto, no se pueden proporcionar resultados generalmente previstos.