Transformar la gestión de la resiliencia con la automatización

Una organización global de SRE (ingeniería de fiabilidad del sitio) se vuelve más resiliente con la automatización

Empleados conversando alrededor de un ordenador portátil.
Luchar contra la resiliencia multinube

El equipo de ingeniería de fiabilidad del sitio (SRE) del software de IBM desempeña un papel crucial en el mantenimiento de la fiabilidad y la seguridad de las ofertas SaaS y la infraestructura de servicios gestionados de IBM. El equipo de SRE, que opera en IBM Cloud, AWS, Microsoft Azure y Google Cloud Platform, ofrece casi 70 soluciones SaaS en todo el mundo y recopila grandes cantidades de datos hasta el nivel de microservicios.

La creación de una evaluación integral de la resiliencia fue un desafío importante para este equipo. Kevin Yu, ingeniero principal de fiabilidad del sitio, explica: "Nuestros métodos anteriores implicaban talleres y un uso extensivo de hojas de cálculo para la evaluación contra nuestra guía de estrategias, que literalmente podían tardar meses en completarse y también eran un desafío para actualizar. Estos métodos carecían de la capacidad de proporcionar una visión holística de la posición de resiliencia de nuestro sistema".

El equipo de SRE también necesitaba una solución para medir con precisión y realizar un seguimiento de las métricas clave de resiliencia, como la disponibilidad, la recuperabilidad y la observabilidad, a lo largo del tiempo para identificar vulnerabilidades e implementar mejoras de forma eficaz.

Otro reto clave fue mejorar las revisiones operativas mensuales (MOR). Las ineficiencias del proceso de MOR actual del equipo SRE impidieron su capacidad de identificar y resolver los problemas con rapidez. Los silos organizativos complicaron aún más el proceso y dificultaron la alineación de los diferentes equipos en una estrategia de resiliencia común.

62% evaluación más rápida de la posición de resiliencia a nivel empresarial por aplicación 72 % revisión mensual de operaciones más rápida
Concert nos ayudó a romper los silos y a ser más productivos. Ahora disponemos de un marco escalable para medir, mejorar y mantener la resiliencia de las aplicaciones en IBM.
Kevin Yu Ingeniero principal de fiabilidad del sitio IBM
Revolucionar la gestión de la resiliencia

El equipo de SRE implementó la plataforma IBM Concert para ayudarles a reducir los silos, impulsar la mejora continua y desbloquear un enfoque repetible de la resiliencia.

La solución combina la automatización y los conocimientos con IA en un marco escalable para evaluar, mejorar y mantener la resiliencia.

Antes de implementar IBM Concert, las evaluaciones de resiliencia eran una tarea manual y laboriosa que podía tardar meses en completarse. El marco de resiliencia de la solución ha automatizado este proceso, proporcionando una visión completa de las métricas clave de resiliencia, como la disponibilidad, la recuperabilidad y la observabilidad. La automatización ha reducido significativamente el tiempo y el esfuerzo necesarios, lo que permite al equipo SRE centrarse en mejorar la solidez y la fiabilidad de la aplicación.

El proceso MOR anterior era ineficaz y lento, ya que a menudo requería cientos de horas para extraer y recopilar datos. Con IBM Concert, el equipo de SRE ahora resume e informa los datos de manera más eficiente, y luego proporciona su información más precisa a sus stakeholders para la evaluación del cumplimiento y la planificación estratégica. La solución también consolida datos de varias fuentes para crear una vista unificada que mejora la capacidad del equipo de SRE para resolver problemas.

Como explica Yu, "Concert nos ayudó a romper los silos y a ser más productivos. Ahora tenemos un marco escalable para medir, mejorar y mantener la resiliencia de las aplicaciones en IBM".

Ganancias de eficiencia y mayor resiliencia

La implementación del marco de resiliencia en IBM Concert trajo resultados transformadores al equipo de SRE de IBM.

"La solución ha transformado nuestro enfoque de resiliencia de aplicación", afirma Yu. "Gracias a la automatización de la recopilación de datos de resiliencia, hemos eliminado silos y hemos hecho operativa la resiliencia". Como resultado, la posición de resiliencia de IBM Concert redujo en un 62 % los días-persona en una evaluación de resiliencia de toda la empresa de IBM por aplicación, en comparación con la evaluación manual1.

El equipo de SRE dice que la transformación también ha mejorado su productividad y ha fomentado una mejor colaboración con otros equipos. Utilizando el marco estandarizado de la solución, el equipo de SRE puede alinear diferentes partes de la organización con una estrategia de resiliencia común en la que vean una mejora en la coordinación y la comunicación generales. Además, las capacidades de generación de informes integrales y coherentes han mejorado la transparencia y la responsabilidad dentro de IBM. Las partes interesadas internas han indicado que ahora comprenden mejor las métricas de resiliencia y la gestión de problemas, lo que les permite tomar decisiones más informadas.

Al aprovechar la postura de resiliencia de IBM Concert, el equipo de SRE ha logrado un enfoque más racionalizado y eficaz para la evaluación de la resiliencia y los MOR, lo que ayuda a garantizar que la infraestructura de SaaS y servicios gestionados de IBM siga siendo fiable y segura. "La posición de resiliencia de IBM Concert redujo las horas-personas del equipo de IBM SRE dedicadas a MOR en un 72 % en comparación con la producción manual del informe", afirma Yu1.

Acerca de la organización IBM Software SRE

La organización Software SRE de IBM es un equipo global centrado en ofrecer SaaS de producción altamente disponible y escalable para productos de software de IBM. El equipo de Software SRE aprovisiona, implementa, monitoriza, mantiene y gestiona los incidentes mediante la estandarización de herramientas, procesos, automatización, libros de ejecución y prácticas. Trabajan en estrecha colaboración con los equipos de desarrollo de software de IBM para diseñar e implementar cambios, proporcionando un servicio altamente resiliente a lo largo de todo el ciclo de vida del software.

Componente de la solución IBM Concert
Resiliencia reinventada

IBM Concert combina la automatización y los conocimientos con IA en un marco escalable para evaluar, mejorar y mantener la resiliencia.

Más información Comience su prueba sin coste
Notas a pie de página

1: Basado en los resultados de una prueba interna. Los resultados individuales pueden variar.

Legal

Copyright IBM Corporation 2025. IBM, el logo de IBM, Concert, IBM Cloud y IBM Concert son marcas o marcas registradas de IBM Corp. en EE. UU. y/o en otros países.

Microsoft es una marca comercial de Microsoft Corporation en Estados Unidos, en otros países o en ambos.

Ejemplos presentados únicamente a título ilustrativo. Los resultados reales variarán en función de las configuraciones y condiciones del cliente y, por lo tanto, no se pueden ofrecer resultados esperados de forma general.