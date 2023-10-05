Un objetivo de nivel de servicio (SLO) es un objetivo de rendimiento acordado para un servicio concreto durante un periodo de tiempo. Los SLO definen el estado esperado de los servicios y ayudan a las partes interesadas a gestionar la salud de servicios específicos, así como a optimizar las decisiones que equilibran la innovación y la fiabilidad.1
Los SLO se miden utilizando indicadores de nivel de servicio (SLI), métricas cuantitativas de algún aspecto del servicio. Los SLO son parte de un acuerdo más amplio entre proveedores de servicios y clientes, acuerdos de nivel de servicio (SLA), que describen el nivel de servicio que un cliente puede esperar de los proveedores y establecen sanciones si no se cumplen los objetivos.
Para garantizar que los niveles de servicio sean coherentes con los requisitos empresariales y los deseos de los clientes, los equipos de ingeniería de fiabilidad del sitio (SRE), DevOps, TI y otros equipos relevantes deben conocer los recorridos cruciales del usuario para cada aplicación: las interacciones que permiten a los usuarios finales alcanzar sus resultado deseado.
La aceptación interna es crucial para el éxito de los SLO (y, por tanto, de los SLA), y en su determinación deben participar múltiples partes interesadas, incluidos los gestores de productos, los equipos de DevOps y de gestión de problemas, y los ingenieros de infraestructuras. Los clientes externos se incorporan a la discusión a través de grupos focales, estudios, quejas de clientes y redes sociales.
La lógica clave de los SLO es que la fiabilidad del servicio conduce a la felicidad del usuario, lo que proporciona una mayor oportunidad de negocio. Establecer objetivos de fiabilidad mensurables ayuda a una organización a equilibrar una experiencia de usuario agradable y eficiente con un coste razonable: no romper el presupuesto de TI con niveles de servicio más allá de lo necesario o esperado.
Los SLO son necesarios porque definen los objetivos de calidad de servicio (QoS) y fiabilidad en términos concretos, mensurables y objetivos. No pretenden definir el mejor nivel de rendimiento, sino una gama de estándares de rendimiento mejores y menos aceptables posibles.1
El objetivo de los SLO se resume muy bien en 97 Things Every Cloud Engineer Should Know (enlace externo a ibm.com), de O`Reilly Media: "¿Cómo puede ofrecer a los directivos una forma sencilla de entender al instante las compensaciones entre fiabilidad, velocidad de innovación y coste? Los SLO son la respuesta. Los SLO crean directrices de fiabilidad claras que equilibran las compensaciones entre los costes de la nube, la velocidad del cambio y los riesgos externos".
Los SLO son uno de los varios términos interrelacionados que intervienen en el seguimiento y la evaluación del rendimiento del servicio:
Un SLI es una medida cuantitativa de algún aspecto de un servicio. Los SLI proporcionan las cifras reales, los baremos de medición del rendimiento del sistema, como la tasa de errores, el rendimiento de los lotes o la latencia de las peticiones. Por lo general, las mediciones se agregan y se presentan como una tasa, un promedio o un percentil.
Los SLO son los valores objetivo para esas mediciones (como garantizar que el tiempo de respuesta se mantiene por debajo de 200 milisegundos, por ejemplo) que deben cumplirse para mantener los acuerdos de nivel de servicio (SLA). Estos valores generalmente se expresan como un porcentaje a lo largo de un período de tiempo.
Los SLA son los contratos entre proveedores y clientes, compuestos por SLO individuales, que garantizan un determinado nivel para las actividades, funciones o procesos del servicio. También fijan las sanciones si no se cumple el acuerdo.
Un presupuesto de errores es un aspecto de los SLO que define la cantidad aceptable de fallos antes de que se rompa un contrato. Un presupuesto de errores permite incorporar tiempos de inactividad planificados o no planificados del servicio que son inevitables en la práctica. Tener en cuenta el tiempo de inactividad permite a los equipos de desarrollo tomar decisiones fundamentadas sobre nuevos desarrollos, operaciones y actualización o reparación del software instalado.
La fiabilidad y la capacidad de respuesta suelen medirse en "nueves camino del 100 %": 90 %, 99 %, 99,9 % y así sucesivamente. Por ejemplo, un objetivo para la disponibilidad de la CPU podría mostrarse así:
Nivel de fiabilidad
Margen de falta de fiabilidad permitido
Al año
Al trimestre
Cada 30 días
90
36,5 días
9 días
3 días
95
18,25 días
4,5 días
1,5 días
99 %
3,65 días
21,6 horas
7,2 horas
99,5 %
1,83 días
10,8 horas
3,6 horas
99,9 %
8,76 horas
2,16 horas
43,2 minutos
99,95 %
4,38 horas
1,08 horas
21,6 minutos
99,99 %
52,6 minutos
12,96 minutos
4,32 minutos
99,999 %
5,26 minutos
1,30 minutos
26,9 segundos
Cada decimal más cercano a 100 suele implicar mayor coste y mayor complejidad. Los clientes, internos y externos, pueden exigir un determinado nivel de capacidad de respuesta, tras el cual ya no pueden detectar una diferencia. Establecer los SLO es en parte ciencia y en parte arte, pues se trata de encontrar un equilibrio entre la perfección estadística y unos objetivos rentables y realistas.
El equipo de desarrollo puede querer ofrecer nuevas funciones, mientras que el equipo de operaciones busca ofrecer estabilidad y calidad, introduciendo cambios de forma controlada. Dado que la empresa proporciona productos o servicios a clientes internos y externos, es importante medir cualquier nivel de servicio desde el punto de vista de esos clientes.
Los SLO ayudan a unir a las organizaciones en torno a la fiabilidad. En última instancia, las partes interesadas deben acordar un SLO medible para el cliente que sea un equilibrio efectivo entre velocidad y calidad de servicio.
En un nivel básico, los objetivos de nivel de servicio son importantes porque garantizan la fiabilidad del servicio y el cumplimiento de los acuerdos de nivel de servicio. Si cumple con los SLA, sus clientes están contentos y eso es bueno para el negocio.
Los SLO no sólo son valiosos para los clientes externos, sino que también ofrecen información valiosa para los clientes internos. Los SLO ayudan a varios equipos a medir el rendimiento de los servicios y aplicaciones y a determinar las formas en que podrían mejorar. Entre otros beneficios, los SLO ayudan a las organizaciones a:
Los problemas de fiabilidad pueden costar dinero a su empresa. Cuando los SLO se configuran correctamente, puede ver y descubrir brechas en la observabilidad. Su configuración de SLO puede ser el único lugar donde puede centralizar la información de múltiples herramientas de monitorización utilizadas en su organización. Una mejor observabilidad le ayuda a ofrecer mejores productos, reducir la pérdida de clientes y operar de forma más eficiente.
Los SLO y SLI proporcionan información sobre el rendimiento de los servicios y las aplicaciones y ofrecen a los equipos una medida precisa del tiempo de inactividad y otros posibles problemas. Esta información es útil para DevOps, TI y otros equipos que buscan lograr un equilibrio entre innovación y fiabilidad a medida que actualizan los productos existentes y lanzan nuevas funciones.
Un SLO bien pensado que mida la salud de sus microservicios, tal y como la experimentan sus clientes, proporciona una visión inestimable sobre el rendimiento del producto y la experiencia del usuario.
Tanto el establecimiento como el seguimiento de os SLO ayudan a unir a los equipos de toda la organización en torno a la comprensión de un servicio y las expectativas asociadas. Unos SLO bien estudiados ayudan a fomentar una cultura de la comunicación, en la que todas las partes interesadas opinan sobre lo que sus unidades esperan de un servicio y comprenden su papel a la hora de garantizar que se cumplan los SLA.
Además, la elaboración de informes y automatizaciones con SLO puede ayudar a cada miembro de su equipo a responder más rápidamente a las preguntas sobre incidencias. Los SLO son importantes para los equipos de DevOps, infraestructura y SRE, pero también pueden ayudar a transformar casi todos los aspectos de su empresa. Los datos recopilados a través de la observabilidad se pueden convertir en información accesible, contextual y procesable. Estos conocimientos proporcionan la visibilidad que sus equipos necesitan para tomar decisiones oportunas y rentables.
Con objetivos claramente articulados, las organizaciones pueden recurrir a la automatización para supervisar y medir los SLI. Este enfoque puede ayudar a garantizar que se cumplan los objetivos, con el objetivo de ir más allá de la monitorización y automatizar completamente los procesos de extremo a extremo.
Un sistema de monitorización automatizado puede ayudar a detectar posibles problemas a medida que se desarrollan, antes de que el rendimiento del servicio incumpla realmente los objetivos establecidos en los SLO o viole los SLA. Una vez establecidos los procesos que cumplen los SLO, se puede implementar la automatización para garantizar un rendimiento constante, por ejemplo, mediante el uso de una plataforma que automatice la asignación de recursos en función de la demanda de la carga de trabajo.
Los SLO proporcionan a los equipos de DevOps la previsión necesaria para identificar posibles problemas antes de que se produzcan. Esta previsión evita tiempos de inactividad inaceptables u otros sucesos que podrían afectar negativamente al usuario final o costar dinero a la empresa.
Los SLA suelen utilizar porcentajes mensuales de inactividad o disponibilidad para calcular la facturación. El tiempo de inactividad es el período de tiempo durante el cual un sistema no cumple su función principal. Los fallos en las comunicaciones, por ejemplo, pueden provocar caídas de la red. El estándar de disponibilidad en la industria sigue siendo alto, al igual que el coste del tiempo de inactividad, que aumenta constantemente. Aparte del impacto financiero, los SLO incumplidos también pueden provocar la insatisfacción del cliente.
Muchas organizaciones operan basándose en un proceso de gestión de incidentes reactivo. Pero, cuando espera a que se produzca un incidente, tarda más en mitigar y resolver los problemas de su sistema, lo que aumenta el tiempo medio de reparación (MTTR)1. Los SLO correctamente establecidos ayudan a mejorar la observabilidad y permiten a las organizaciones ser más proactivas en la gestión de incidentes.
Las alertas irrelevantes no solo aumentan los costes operativos, sino que también pueden provocar altas tasas de agotamiento cuando los ingenieros pierden tiempo y productividad respondiendo a alertas inexistentes. Uno de los mayores desafíos en materia de alertas es simplemente encontrar el equilibrio adecuado entre demasiadas y muy pocas alertas.
Una alerta relevante sería aquella que notifica a un ingeniero cuando es probable que la degradación haga que no se alcance un objetivo de fiabilidad: una alerta basada en síntomas. Por ejemplo, es un verdadero problema cuando la latencia de respuesta de un servicio en la última hora puede provocar el incumplimiento del SLO de latencia para la semana.
Si le pregunta a la gente de negocios cuál debería ser su objetivo de tiempo de actividad del sistema, muchos podrían decir que les gustaría intentar alcanzar el 100 %. Es un objetivo muy ambicioso, pero también muy costoso y podría consumir la mayor parte de su presupuesto de TI antes que cualquier otra cosa. Los SLO no están diseñados para presumir, sino para encontrar y cumplir las expectativas de los clientes para que pueda mantenerlos contentos y que vuelvan. La fiabilidad es un medio, no un fin.
El hecho de que una métrica de rendimiento pueda medirse no significa que sea importante para la felicidad de sus clientes o su cuenta de resultados. Priorice. Céntrese en las métricas que más se acerquen a una experiencia positiva del cliente.
En Foundations of Service Level Management (enlace externo a ibm.com), Rick Sturm y Wayne Morris presentan esta lista de comprobación para establecer SLO realistas:
Los SLO deben ser:
· Alcanzables
· Repetibles
· Mensurables
· Fáciles de entender
· Significativos
· Controlables
· Asequibles
· Aceptables para ambas partes
Tenga en cuenta que su lista comienza con "alcanzables". Apuntar a la luna es muy caro y puede generar más tiempo de actividad del que esperan sus clientes. Estas son algunas de las mejores prácticas importantes que pueden ayudarlo a alcanzar sus objetivos de SLO:
Defina SLO que respalden el SLA o el objetivo empresarial. ¿Son 20 SLO realmente cuatro veces mejores que cinco SLO? ¿O simplemente supondría más trabajo para su equipo informático y confundiría al cliente, sin ningún beneficio significativo? No sienta que tiene que calificar todo lo que se puede medir.
Establezca objetivos de SLO realistas en lugar de prometer demasiado y luego no cumplir, lo que puede resultar costoso en sanciones e incluso hacer que la empresa pierda un cliente. Ser realista con las partes interesadas internas y con los clientes permite a todos tomar decisiones informadas. Los objetivos de SLO poco realistas solo costarán más a largo plazo.
Si se acuerdan de antemano unas expectativas realistas, se evitan confusiones y conflictos entre los equipos internos y con el cliente.
Las hojas de recopilación manual de métricas pueden ralentizar la corrección y no permitir el análisis de la causa raíz. Recopile los SLI relevantes para evaluar los SLO automáticamente e incorpore alertas automáticas antes de que se infrinja un SLO. Incluya el contexto que su personal necesita y las dependencias para abordar una cuestión antes de que se convierta en un problema importante.
