IBM Well-Architected Framework
El pilar de operaciones eficientes se centra en soluciones que cumplen con los requisitos de insights sobre las cargas de trabajo en la nube, procesos digitalizados y el mantenimiento de una postura operativa proactiva. Esto se facilita mediante prácticas y orientación sobre el despliegue de equipos, automatización y herramientas de IA para monitorear, gestionar y mantener soluciones de manera segura, confiable y eficiente.
Algunos ejemplos de modelos operativos incluyen “Usted lo construye, lo ejecuta” o establecer una práctica de ingeniería de confiabilidad del sitio. Estos y otros modelos operativos dependen de la comprensión de las necesidades y el contexto de la empresa, los clientes, los administradores y los equipos de desarrollo.
Es importante comprender que los modelos operativos deben evaluarse, ajustarse y adaptarse continuamente a las necesidades de una organización teniendo en cuenta factores como la industria, los requisitos normativos, las soluciones existentes y los objetivos del usuario.
La automatización de tareas de operaciones comunes y rutinarias mediante scripts, agentes inteligentes y otras herramientas ayuda a mantener altos niveles de servicio.
Este principio debe escalar entre equipos y dependencias para lograr eficiencias/velocidad de extremo a extremo, precisión, reducción de errores y agilidad. y garantizar la coherencia dentro del entorno operativo.
Hoy en día, los equipos de operaciones tienen una gran cantidad de opciones en herramientas operativas y pueden elegir muchas de las mejores herramientas para aspectos operativos específicos que pueden conducir a la expansión si no se gestionan.
Las variaciones y la integración entre las herramientas pueden generar desafíos en la incorporación de miembros del equipo, licencias y control de costos, agilidad y mayores vulnerabilidades. Los equipos de operaciones deben tratar continuamente de minimizar y consolidar las herramientas y consolas operativas en uso.
No todas las soluciones requieren disponibilidad 24x7 o tiempo de respuesta instantáneo. Las soluciones eficientes deben admitir múltiples niveles de servicio dentro de una sola solución y permitir que las cargas de trabajo se coloquen en la infraestructura que mejor cumpla con los requisitos operativos de las cargas de trabajo.
Los niveles de servicio también informarán a los equipos de desarrollo para que tengan en cuenta las configuraciones y la instrumentación a nivel de aplicación para respaldar los objetivos de negocio y la experiencia positiva del usuario.
Los equipos de operaciones eficientes son multidisciplinarios; es decir, contienen todas las habilidades necesarias para dar soporte a un conjunto de aplicaciones. El logro de esta capacidad requiere consideración en toda la pila de cargas de trabajo, incluyendo servicios de aplicación y de infraestructura.
Las soluciones y las herramientas de operaciones deben respaldar este modelo permitiendo tanto la integración (entre los componentes de la solución) como la segregación (de otras soluciones) de las herramientas y la información de operaciones.
Muchas prácticas operativas son comunes y se pueden automatizar y acceder detrás de una API para un mayor acceso; por ejemplo, no solo creando automatización para gestionar secretos, sino creando una API de larga duración para ejecutar operaciones de gestión de secretos.
Este enfoque se escala a través de la incorporación de nuevas capacidades y la integración en flujos de trabajo dinámicos. Esto puede estandarizar los procedimientos y reducir la cantidad de tiempo de espera entre los equipos.
Prácticas y orientación para crear soluciones operativas eficientes. Esta guía informa a los equipos para implementar principios de operaciones eficientes y garantizar la confiabilidad, disponibilidad y rendimiento de sistemas complejos. Estas prácticas ayudan a las organizaciones a alcanzar sus objetivos de confiabilidad centrados en el usuario y a mantener el estado de sus servicios.
Las prácticas de operaciones eficientes son ajustables y pueden tener el tamaño adecuado para adaptarse a las necesidades y el contexto específicos de los consumidores, sistemas y servicios de una organización.
Los requisitos específicos de la organización, las cargas de trabajo y las arquitecturas determinarán las mejores prácticas que se deben adoptar. La mejora continua mediante feedback, evaluación y alineación a la estrategia de nube de la organización es esencial para continuar la eficiencia y eficacia.
El objetivo deseado es crear una cultura de confiabilidad y colaboración que mejore la experiencia del usuario, impulse el valor de negocio y minimice las interrupciones.
Cada aplicación en la nube con su propio equipo administrativo o SRE tenderá a adoptar o construir una solución de monitoreo. Para minimizar los planos de control, los equipos de operaciones deben preferir trabajar con un equipo de herramientas centralizadas para incorporarse a una solución de monitoreo centralizada.
La consolidación de los registros del sistema, de eventos y de aplicaciones en una ubicación central simplifica enormemente la supervisión operativa y el diagnóstico de problemas, ya que reduce al mínimo el número de fuentes y ubicaciones de registros que debe supervisar y gestionar el personal de operaciones. Esto permite a los equipos configurar sistemas de monitoreo integrales para recopilar y analizar continuamente métricas y registros de varios componentes del sistema. Estos sistemas activan alertas cuando los SLI se desvían de los rangos aceptables, lo que permite a los ingenieros o a los procesos automatizados responder rápidamente para dirigirse a las señales indicativas.
El viejo antiguo modelo de “romper/arreglar” simplemente no funciona en los entornos de TI modernos con mayores demandas de los clientes, soluciones de nube en expansión y menos empleados capacitados para gestionarlo todo. Las herramientas de operaciones asistidas por inteligencia artificial (AIOps) ayudan a los equipos de operaciones a mantener la disponibilidad, el rendimiento y la seguridad de sus entornos, y a identificar y resolver rápidamente problemas potenciales y continuos dentro de su entorno.
La adopción de AIOps se habilita a través de actividades clave que incluyen:
Las especificaciones y la configuración de la infraestructura se gestionan como código, es decir, el uso de herramientas de aprovisionamiento automatizadas para gestionar la configuración y garantizar la congruencia de la infraestructura en todos los despliegues.
La configuración coherente de la infraestructura en el código garantiza entornos reproducibles en todos los ciclos de vida de SLDC y despliegues en todos los entornos.
Este enfoque permite obtener beneficios clave que incluyen:
Los equipos de producto trabajan con los stakeholders para definir objetivos de nivel de servicio (SLO) y establecer indicadores de nivel de servicio (SLI) que miden la resiliencia y la prestación de un servicio. Los SLI pueden tener una relación de muchos a uno con los SLO aprovechando métricas medibles como latencia, tasas de error y tiempo de actividad que contribuyen a cumplir los objetivos establecidos.
El establecimiento de SLO y SLI permite beneficios clave que incluyen:
Desarrolle constantemente procedimientos que describan roles, responsabilidades, canales de comunicación y rutas de escalamiento durante procesos clave, como la gestión de incidentes, cambios y problemas. Estos procedimientos garantizan un uso funcional, seguro, escalable y rentable de los recursos en la nube.
Los procedimientos comunes de operaciones en la nube incluyen:
La implementación y gestión de procedimientos bien definidos incluyen simulaciones de procesos para emular escenarios y garantizar que los equipos estén bien preparados para ejecutar tareas en todos los grupos con calidad y eficiencia.
Después de que ocurre un incidente inesperado, los equipos realizan análisis postmortem e investigaciones inculpables para identificar los factores contribuyentes, las causas principales y la eficiencia de la respuesta. A esto le sigue una solución digitalizada o automatizada para evitar incidentes similares en el futuro.
Esta práctica incluye revisiones periódicas y refinamiento fundamentados en insights basados en datos, postmortems y feedback de los stakeholders. Además, a medida que los servicios se incorporan e integran en los entornos, la integración con las soluciones automatizadas existentes es clave para mantener una postura proactiva.
Esto garantiza que los procesos no permanezcan estáticos, sino que evolucionen para cumplir con los objetivos, requerimientos y desafíos dinámicos del negocio.
Colabore con los equipos de seguridad para garantizar que las medidas de seguridad se integren en los procesos de desarrollo, despliegue y mantenimiento.
Esto incluye desplazarse a la izquierda con la seguridad y los ciclos de vida de desarrollo de software (SDLC) con un enfoque en la implementación de políticas a través de soluciones codificadas y automatizadas.
La colaboración constante con la seguridad garantiza que las cargas de trabajo desplegadas permanezcan alineadas con las políticas dinámicas de la organización y los objetivos de negocio. Otros procesos incluyen el uso de evaluaciones de seguridad periódicas, la incorporación de la gestión de vulnerabilidades y la invocación periódica de comprobaciones de cumplimiento.