Guía de operaciones eficientes para la nube

Descripción general

El pilar de operaciones eficientes se centra en soluciones que cumplen con los requisitos de insights sobre las cargas de trabajo en la nube, procesos digitalizados y el mantenimiento de una postura operativa proactiva. Esto se facilita mediante prácticas y orientación sobre el despliegue de equipos, automatización y herramientas de IA para monitorear, gestionar y mantener soluciones de manera segura, confiable y eficiente.

Principios

Algunos ejemplos de modelos operativos incluyen “Usted lo construye, lo ejecuta” o establecer una práctica de ingeniería de confiabilidad del sitio. Estos y otros modelos operativos dependen de la comprensión de las necesidades y el contexto de la empresa, los clientes, los administradores y los equipos de desarrollo.

Es importante comprender que los modelos operativos deben evaluarse, ajustarse y adaptarse continuamente a las necesidades de una organización teniendo en cuenta factores como la industria, los requisitos normativos, las soluciones existentes y los objetivos del usuario.

La automatización de tareas de operaciones comunes y rutinarias mediante scripts, agentes inteligentes y otras herramientas ayuda a mantener altos niveles de servicio.

Este principio debe escalar entre equipos y dependencias para lograr eficiencias/velocidad de extremo a extremo, precisión, reducción de errores y agilidad. y garantizar la coherencia dentro del entorno operativo.

Hoy en día, los equipos de operaciones tienen una gran cantidad de opciones en herramientas operativas y pueden elegir muchas de las mejores herramientas para aspectos operativos específicos que pueden conducir a la expansión si no se gestionan.

Las variaciones y la integración entre las herramientas pueden generar desafíos en la incorporación de miembros del equipo, licencias y control de costos, agilidad y mayores vulnerabilidades. Los equipos de operaciones deben tratar continuamente de minimizar y consolidar las herramientas y consolas operativas en uso.

No todas las soluciones requieren disponibilidad 24x7 o tiempo de respuesta instantáneo. Las soluciones eficientes deben admitir múltiples niveles de servicio dentro de una sola solución y permitir que las cargas de trabajo se coloquen en la infraestructura que mejor cumpla con los requisitos operativos de las cargas de trabajo.

Los niveles de servicio también informarán a los equipos de desarrollo para que tengan en cuenta las configuraciones y la instrumentación a nivel de aplicación para respaldar los objetivos de negocio y la experiencia positiva del usuario.

Los equipos de operaciones eficientes son multidisciplinarios; es decir, contienen todas las habilidades necesarias para dar soporte a un conjunto de aplicaciones. El logro de esta capacidad requiere consideración en toda la pila de cargas de trabajo, incluyendo servicios de aplicación y de infraestructura.

Las soluciones y las herramientas de operaciones deben respaldar este modelo permitiendo tanto la integración (entre los componentes de la solución) como la segregación (de otras soluciones) de las herramientas y la información de operaciones.

¿Qué es la ingeniería de confiabilidad del sitio?

Muchas prácticas operativas son comunes y se pueden automatizar y acceder detrás de una API para un mayor acceso; por ejemplo, no solo creando automatización para gestionar secretos, sino creando una API de larga duración para ejecutar operaciones de gestión de secretos.

Este enfoque se escala a través de la incorporación de nuevas capacidades y la integración en flujos de trabajo dinámicos. Esto puede estandarizar los procedimientos y reducir la cantidad de tiempo de espera entre los equipos.

Prácticas

Prácticas y orientación para crear soluciones operativas eficientes. Esta guía informa a los equipos para implementar principios de operaciones eficientes y garantizar la confiabilidad, disponibilidad y rendimiento de sistemas complejos. Estas prácticas ayudan a las organizaciones a alcanzar sus objetivos de confiabilidad centrados en el usuario y a mantener el estado de sus servicios.

Las prácticas de operaciones eficientes son ajustables y pueden tener el tamaño adecuado para adaptarse a las necesidades y el contexto específicos de los consumidores, sistemas y servicios de una organización.

Los requisitos específicos de la organización, las cargas de trabajo y las arquitecturas determinarán las mejores prácticas que se deben adoptar. La mejora continua mediante feedback, evaluación y alineación a la estrategia de nube de la organización es esencial para continuar la eficiencia y eficacia.

El objetivo deseado es crear una cultura de confiabilidad y colaboración que mejore la experiencia del usuario, impulse el valor de negocio y minimice las interrupciones.

Cada aplicación en la nube con su propio equipo administrativo o SRE tenderá a adoptar o construir una solución de monitoreo. Para minimizar los planos de control, los equipos de operaciones deben preferir trabajar con un equipo de herramientas centralizadas para incorporarse a una solución de monitoreo centralizada.

La consolidación de los registros del sistema, de eventos y de aplicaciones en una ubicación central simplifica enormemente la supervisión operativa y el diagnóstico de problemas, ya que reduce al mínimo el número de fuentes y ubicaciones de registros que debe supervisar y gestionar el personal de operaciones. Esto permite a los equipos configurar sistemas de monitoreo integrales para recopilar y analizar continuamente métricas y registros de varios componentes del sistema. Estos sistemas activan alertas cuando los SLI se desvían de los rangos aceptables, lo que permite a los ingenieros o a los procesos automatizados responder rápidamente para dirigirse a las señales indicativas.

IBM Observability with Instana

IBM Cloud Pak for AIOps

El viejo antiguo modelo de “romper/arreglar” simplemente no funciona en los entornos de TI modernos con mayores demandas de los clientes, soluciones de nube en expansión y menos empleados capacitados para gestionarlo todo. Las herramientas de operaciones asistidas por inteligencia artificial (AIOps) ayudan a los equipos de operaciones a mantener la disponibilidad, el rendimiento y la seguridad de sus entornos, y a identificar y resolver rápidamente problemas potenciales y continuos dentro de su entorno.

La adopción de AIOps se habilita a través de actividades clave que incluyen:

Recopilación de datos en todos los procesos operativos, como incidentes, problemas y cambios
Entrenamiento de modelos alineado con SLO y SLI
Detección y clasificación automatizadas en servicios individuales e integrados
Respuesta y corrección automatizadas para permitir sistemas de autocorrección
Feedback continuo y aprendizaje

IBM Cloud Pak for AIOps

Las especificaciones y la configuración de la infraestructura se gestionan como código, es decir, el uso de herramientas de aprovisionamiento automatizadas para gestionar la configuración y garantizar la congruencia de la infraestructura en todos los despliegues.

La configuración coherente de la infraestructura en el código garantiza entornos reproducibles en todos los ciclos de vida de SLDC y despliegues en todos los entornos.

Este enfoque permite obtener beneficios clave que incluyen:

Gobernanza, auditabilidad y control de versiones aprovechando sistemas como Git
Habilitar la colaboración y la capacidad de revertir los cambios cuando sea necesario
Automatizar y acelerar el aprovisionamiento y gestión de recursos
Escalar según los umbrales y desencadenantes
Reutilizar entre equipos y proyectos

Ansible

Los equipos de producto trabajan con los stakeholders para definir objetivos de nivel de servicio (SLO) y establecer indicadores de nivel de servicio (SLI) que miden la resiliencia y la prestación de un servicio. Los SLI pueden tener una relación de muchos a uno con los SLO aprovechando métricas medibles como latencia, tasas de error y tiempo de actividad que contribuyen a cumplir los objetivos establecidos.

El establecimiento de SLO y SLI permite beneficios clave que incluyen:

Metas medibles para garantizar que los equipos tengan objetivos bien definidos y claros
Enfoque centrado en el usuario basado en las expectativas del negocio y la experiencia del usuario
Medición cuantificable que permite una medición y evaluación objetivas
Orientación para alinearse con la calidad de los servicios cuando se utilizan proveedores externos
Medición común en todos los equipos (desarrollo, operaciones, negocio)

Desarrolle constantemente procedimientos que describan roles, responsabilidades, canales de comunicación y rutas de escalamiento durante procesos clave, como la gestión de incidentes, cambios y problemas. Estos procedimientos garantizan un uso funcional, seguro, escalable y rentable de los recursos en la nube.

Los procedimientos comunes de operaciones en la nube incluyen:

Aprovisionamiento y despliegue basados en plantillas predefinidas de infraestructura como código
Monitoreo y alertas para notificar a los equipos cuando se superan los umbrales o los parámetros de estado
Copias de seguridad periódicas de los datos y las configuraciones para permitir planes de recuperación sólidos y oportunos.
Monitoreo de la utilización de recursos e identificación de oportunidades de optimización de costos
Realización periódica de pruebas de recuperación ante desastres para validar la efectividad de los planes de recuperación
Análisis de las tendencias de uso y crecimiento para pronosticar las necesidades de recursos
Desarrollo de planes de respuesta a incidentes para abordar eventos críticos como interrupciones y violaciones

La implementación y gestión de procedimientos bien definidos incluyen simulaciones de procesos para emular escenarios y garantizar que los equipos estén bien preparados para ejecutar tareas en todos los grupos con calidad y eficiencia.

Después de que ocurre un incidente inesperado, los equipos realizan análisis postmortem e investigaciones inculpables para identificar los factores contribuyentes, las causas principales y la eficiencia de la respuesta. A esto le sigue una solución digitalizada o automatizada para evitar incidentes similares en el futuro.

Esta práctica incluye revisiones periódicas y refinamiento fundamentados en insights basados en datos, postmortems y feedback de los stakeholders. Además, a medida que los servicios se incorporan e integran en los entornos, la integración con las soluciones automatizadas existentes es clave para mantener una postura proactiva.

Esto garantiza que los procesos no permanezcan estáticos, sino que evolucionen para cumplir con los objetivos, requerimientos y desafíos dinámicos del negocio.

Colabore con los equipos de seguridad para garantizar que las medidas de seguridad se integren en los procesos de desarrollo, despliegue y mantenimiento.

Esto incluye desplazarse a la izquierda con la seguridad y los ciclos de vida de desarrollo de software (SDLC) con un enfoque en la implementación de políticas a través de soluciones codificadas y automatizadas.

La colaboración constante con la seguridad garantiza que las cargas de trabajo desplegadas permanezcan alineadas con las políticas dinámicas de la organización y los objetivos de negocio. Otros procesos incluyen el uso de evaluaciones de seguridad periódicas, la incorporación de la gestión de vulnerabilidades y la invocación periódica de comprobaciones de cumplimiento.

Recursos

IBM Cloud Pak for AIOps

una plataforma integral de gestión de operaciones asistida por IA que ayuda a los equipos de operaciones a contextualizar los datos de operaciones y resolver problemas de forma colaborativa, y proporciona recomendaciones proactivas para ayudar a los equipos a evitar problemas antes de que ocurran.

IBM Instana Observability

una plataforma de observabilidad operativa de lote completo que integra el equipo de operaciones a través de una plataforma común y vistas contextualizadas que apoyan a todos los equipos de entrega, incluyendo DevOps, SRE, ingeniería de plataforma e ITOps.

IBM Turbonomic

una plataforma de pila completa de visualización y automatización de operaciones que ayuda a los equipos de operaciones a optimizar los recursos de infraestructura en términos de costo y rendimiento.

IBM DevOps Automation

una herramienta de software inteligente que ayuda a los equipos a entregar software de manera más eficiente.

Red Hat Ansible

una plataforma de automatización en la nube híbrida que automatiza tareas repetitivas para ahorrar tiempo y ser más productivo.

OpenShift Pipelines