¿Qué es un objetivo de nivel de servicio (SLO)?

¿Qué es un SLO?

Un objetivo de nivel de servicio (SLO) es un objetivo de rendimiento acordado para un servicio particular durante un tiempo. Los SLO definen el estado esperado de los servicios y ayudan a los stakeholders a gestionar la salud de servicios específicos, así como a optimizar las decisiones equilibrando la innovación y la confiabilidad.¹

Los SLO se miden mediante indicadores de nivel de servicio (SLI), que son métricas cuantitativas de algún aspecto del servicio. Los SLO forman parte de un acuerdo más amplio entre proveedores de servicios y clientes:—los acuerdos de nivel de servicio (SLA). Estos acuerdos describen el nivel de servicio que un cliente puede esperar de los proveedores y establecen sanciones cuando no se cumplen los objetivos.

Para garantizar que los niveles de servicio se alineen con los requerimientos del negocio y las expectativas del cliente, los equipos de ingeniería de confiabilidad del sitio (SRE, por sus siglas en inglés), DevOps, TI y otros equipos relevantes deben comprender los viajes críticos de los usuarios para cada aplicación. Estos recorridos consisten en las interacciones que permiten a los usuarios finales lograr los resultados deseados.

La aceptación interna es crucial para el éxito de los SLO (y, por lo tanto, los SLA) y múltiples stakeholders deben participar en la determinación de los SLO, incluidos los gerentes de producto, y los equipos de DevOps y de gestión de problemas, así como los ingenieros de infraestructura. Los clientes externos se incorporan a la discusión a través de grupos focales, estudios, quejas de clientes y redes sociales.

La lógica clave de los SLO es que la confiabilidad del servicio conduce a la felicidad del usuario, lo que brinda una mayor oportunidad de negocio. Establecer objetivos de confiabilidad medibles ayuda a una organización a equilibrar una experiencia de usuario agradable y eficiente con un costo razonable: no alterar el presupuesto de TI con niveles de servicio más allá de lo que se necesita o espera.

Los SLO son necesarios porque definen los objetivos de calidad de servicio (QoS) y confiabilidad en términos concretos, medibles y objetivos. No pretenden definir el mejor nivel de rendimiento, sino una gama de estándares de rendimiento mejores y menos aceptables.¹

El objetivo de los SLO se resume muy bien en 97 Things Every Cloud Engineer Should Know, de O`Reilly Media: “¿Cómo puede facilitar a la administración el entendimiento de las compensaciones entre confiabilidad, velocidad de innovación y costo? Los SLO son la respuesta. Los SLO crean pautas claras de confiabilidad que equilibran las compensaciones entre los costos de la nube, la velocidad del cambio y los riesgos externos”.

Representación 3D del panel de control en un proceso de automatización digital

Libro electrónico: Obtenga respuestas de expertos sobre por qué es importante la observabilidad

Descubra qué significa realmente la observabilidad y cómo la observabilidad puede acelerar los resultados empresariales.

Comparación entre SLO y SLI y SLA

Los SLO son uno de varios términos interrelacionados que intervienen en el seguimiento y la evaluación del rendimiento del servicio:

Indicador de nivel de servicio (SLI)

Un SLI es una medida cuantitativa de algún aspecto de un servicio. Las SLI proporcionan los números reales, las barras de medición para el rendimiento del sistema, como tasas de error, rendimiento de lotes o latencia de solicitudes. Normalmente, las mediciones se agregan y se presentan como tasa, media o percentil.

Objetivo de nivel de servicio (SLO)

Los SLO son los valores objetivo para aquellas mediciones (como garantizar que el tiempo de respuesta se mantenga por debajo de los 200 milisegundos, por ejemplo) que deben cumplir para mantener los acuerdos de nivel de servicio (SLA). Estos valores generalmente se expresan como un porcentaje durante un tiempo.

Acuerdo de nivel de servicio (SLA)

Los SLA son los contratos entre proveedores y clientes, compuestos por SLO individuales, que garantizan un cierto nivel para actividades de servicio, funciones o procesos. También establecen las sanciones si no se cumple el acuerdo.

Cotización de errores

Una cotización de errores es un aspecto de los SLO que define la cantidad aceptable de fallas antes de que se rompa un contrato. Una cotización de errores permite incorporar el tiempo de inactividad planeado o no planeado del servicio que es inevitable en la práctica. La incorporación del tiempo de inactividad permite a sus equipos de desarrollo tomar decisiones informadas sobre nuevos desarrollos, operaciones y actualizaciones o arreglos de software instalado.

Cómo se miden los SLO

La confiabilidad y la capacidad de respuesta a menudo se miden en “nueves en el camino hacia el 100%”: 90%, 99%, 99.9%, etc. Por ejemplo, un objetivo para la disponibilidad de la CPU podría verse así:

Nivel de confiabilidad	Periodo de falta de confiabilidad permitido

	por año	Por trimestre	Cada 30 días
90%	36.5 días	9 días	3 días
95%	18.25 días	4.5 días	1.5 días
99%	3.65 días	21.6 horas	7.2 horas
99.5%	1.83 días	10.8 horas	3.6 horas
99.9%	8.76 horas	2.16 horas	43.2 minutos
99.95%	4.38 horas	1.08 horas	21.6 minutos
99.99%	52.6 minutos	12.96 minutos	4.32 minutos
99.999%	5.26 minutos	1 minuto y 30 segundos	26.9 segundos

Cada punto decimal más cercano a 100 suele implicar un mayor costo y complejidad para lograrlo. Los clientes, internos y externos, pueden requerir un cierto nivel de capacidad de respuesta, luego del cual ya no pueden detectar una diferencia. Establecer un SLO es en parte ciencia y en parte arte, ya que logra un equilibrio entre la perfección estadística y objetivos rentables y realistas.

Es posible que el equipo de desarrollo quiera ofrecer nuevas características, mientras que el equipo de operaciones busca ofrecer estabilidad y calidad, introduciendo cambios de forma controlada. Debido a que la compañía proporciona productos o servicios a clientes internos y externos, es importante medir cualquier nivel de servicio desde el punto de vista de esos clientes.

Los SLO ayudan a unir a las organizaciones en torno a la confiabilidad. En última instancia, las partes interesadas deben acordar un SLO medible para el cliente que sea un equilibrio efectivo entre la velocidad y la calidad del servicio.

¿Por qué son importantes las SLO?

En un nivel básico, los objetivos de nivel de servicio son importantes porque garantizan la confiabilidad del servicio y que se cumplan los acuerdos de nivel de servicio. Si cumple con los SLA, sus clientes están contentos y eso es bueno para el negocio.

Los SLO no solo son valiosos para los clientes externos, sino que también ofrecen información valiosa para los clientes internos. Los SLO ayudan a varios equipos a medir el rendimiento de los servicios y aplicaciones y a determinar las formas en que podrían mejorar. Entre otros beneficios, los SLO ayudan a las organizaciones a:

Establecer la confiabilidad y eficiencia del sistema

Los problemas de confiabilidad pueden costarle dinero a su compañía. Cuando los SLO se configuran correctamente, puede ver y descubrir brechas en la observabilidad. Su configuración de SLO puede ser el único lugar donde puede centralizar la información de múltiples herramientas de monitoreo empleadas en su organización. Una mejor observabilidad lo ayuda a ofrecer mejores productos, reducir la rotación de clientes y operar de manera más eficiente.

Mejore los productos y la experiencia del usuario

Los SLO y SLI proporcionan insight sobre el rendimiento de los servicios y aplicaciones, y ofrecen a los equipos una medida precisa del tiempo de inactividad y otros problemas potenciales.

Esta información es útil para DevOps, TI y otros equipos que buscan lograr un equilibrio entre innovación y confiabilidad a medida que actualizan los productos existentes y lanzan nuevas características.

Un SLO bien considerado que mide el estado de sus microservicios, tal como lo experimentan sus clientes, proporciona información invaluable sobre el rendimiento del producto y la experiencia del usuario.

Alinear mejor los equipos internos y mejorar la toma de decisiones

Tanto el establecimiento como el seguimiento de los SLO ayudan a unir a los equipos de toda la organización en torno a una comprensión de un servicio y las expectativas asociadas. Los SLO bien pensados ayudan a fomentar una cultura de comunicación, donde todos los stakeholders opinan sobre lo que sus unidades esperan de un servicio y comprenden su papel para garantizar que se cumplan los SLA.

Además, la creación de informes y automatizaciones con SLO puede ayudar a cada afiliado a su equipo a responder preguntas sobre incidentes con mayor rapidez. Los SLO son importantes para sus equipos de DevOps, infraestructura y SRE, pero también pueden ayudar a transformar casi todos los aspectos de su compañía. Los datos recopilados a través de la observabilidad se pueden convertir en información accesible, contextual y procesable. Estos insights proporcionan la visibilidad que sus equipos necesitan para tomar decisiones oportunas y rentables.

Aproveche la automatización

Con objetivos claramente definidos, las organizaciones pueden recurrir a la automatización para monitorear y medir los SLI. Este enfoque puede ayudar a garantizar que se cumplan los objetivos, con el fin de ir más allá del monitoreo y automatizar completamente los procesos de extremo a extremo.

Un sistema de monitoreo automatizado puede ayudar a detectar problemas potenciales a medida que se desarrollan, antes de que el rendimiento del servicio realmente no alcance los objetivos establecidos en los SLO o incumpla con los SLA. Una vez que se establecen los procesos que cumplen con los SLO, se puede implementar la automatización para garantizar un rendimiento constante, por ejemplo, mediante el uso de una plataforma que automatice la asignación de recursos en función de la demanda de la carga de trabajo.

Reducción del tiempo de inactividad

Los SLO proporcionan a los equipos de DevOps la previsión para identificar posibles problemas antes de que ocurran. Esta previsión evita tiempos de inactividad inaceptables u otros eventos que podrían afectar negativamente al usuario final o costar dinero a la compañía.

Los SLA suelen emplear porcentajes mensuales de tiempo de inactividad o disponibilidad para calcular la facturación. La duración del tiempo de inactividad es el periodo en el que un sistema no puede realizar su función principal. Las fallas de comunicación, por ejemplo, pueden causar tiempo de inactividad de la red. El estándar de disponibilidad en la industria sigue siendo alto, al igual que el costo del tiempo de inactividad, que aumenta constantemente. Además del impacto financiero, los SLO incumplidos también pueden provocar la insatisfacción del cliente.

Cambiar a la gestión predictiva de incidentes

Muchas organizaciones operan con base en un proceso reactivo de gestión de incidentes. Pero cuando espera a que ocurra un incidente, lleva más tiempo mitigar y resolver los problemas dentro de su sistema, lo que aumenta el tiempo medio de reparación (MTTR)¹. Los SLO establecidos correctamente ayudan a mejorar la observabilidad y permiten a las organizaciones ser más proactivas en la gestión de incidentes.

Minimizar el agotamiento de los empleados

Las alertas irrelevantes hacen más que aumentar los costos operativos: también conducen a altas tasas de agotamiento, ya que los ingenieros pierden tiempo y productividad respondiendo a alertas inexistentes. Uno de los mayores desafíos en las alertas es simplemente encontrar el equilibrio adecuado entre demasiadas y muy pocas alertas.

Una alerta relevante notifica a un ingeniero cuando es probable que la degradación haga que se pierda un objetivo de confiabilidad: una alerta basada en síntomas. Por ejemplo, es un problema real cuando la latencia de respuesta de un servicio en la última hora podría causar que el SLO de latencia no cumpla con la semana.

Mejores prácticas de SLO

Si le pregunta a la gente de negocios cuál debería ser su objetivo de tiempo de actividad del sistema, muchos podrían decir que les gustaría intentar alcanzar el 100%. Esta práctica es un objetivo ambicioso, pero también costoso y puede consumir la mayor parte de su presupuesto de TI antes que cualquier otra cosa. Los SLO no están diseñados para asumir, sino para encontrar y cumplir con las expectativas de los clientes para que puedan mantenerlos contentos y hacer que regresen. La confiabilidad es un medio, no un fin.

El hecho de que una métrica de rendimiento se pueda medir no significa que sea importante para la felicidad de su cliente o sus resultados finales. Priorizar. Concentrarse en aquellas métricas que más se acerquen a una experiencia positiva del cliente.

En Fundamentos de la gestión del nivel de servicio , Rick Sturm y Wayne Morris presentan esta lista de verificación para establecer SLO realistas:

Los SLO deberían ser:

· Alcanzables

· Repetibles

· Medibles

· Comprensibles

· Significativos

· Controlables

· Asequibles

· Mutuamente aceptable

Su lista comienza con “alcanzable”. Apuntar demasiado alto aumenta los costos y puede tener Resultados en una mayor disponibilidad de la que necesitan sus clientes. Estas son algunas de las mejores prácticas importantes que pueden ayudarlo a alcanzar sus objetivos de SLO:

No se deje llevar

Defina SLO que respalden el SLA o el objetivo empresarial. ¿Son 20 SLO realmente cuatro veces mejores que cinco SLO? ¿O esto simplemente crearía más trabajo para su equipo de TI y confundiría al cliente, sin ningún beneficio significativo? No sienta que tiene que calificar todo lo que se puede medir.

No intente ser un héroe

Establezca objetivos de SLO realistas en lugar de prometer demasiado y luego no cumplir, ya que podría resultar costoso en sanciones y tal vez incluso hacer que la compañía pierda algún cliente. Ser realista con las partes interesadas internas y con los clientes permite que todos puedan tomar decisiones informadas. Los objetivos de SLO excesivamente altos cuestan más al final.

Emplear los SLO para promover la alineación empresarial

Al acordar expectativas realistas por adelantado, evita confusiones y conflictos en el futuro entre los equipos internos y con el cliente.

Automatice las evaluaciones

Las hojas de recopilación de métricas manuales pueden ralentizar la corrección y es posible que no permitan el análisis de la causa principal. Recopile los SLI relevantes para evaluar los SLO automáticamente y cree alertas automáticas antes de que se infrinja un SLO. Incluya el contexto que su personal necesita y las dependencias para abordar un problema antes de que se convierta en un problema importante.

Obtenga respuestas de expertos sobre por qué es importante la observabilidad

Descubra qué significa realmente la observabilidad y cómo la observabilidad puede acelerar los resultados empresariales.

Notas de pie de página

¹“Objetivos de nivel de servicio”, IBM, 6 de septiembre de 2023