Cinco métricas de SLA que debería monitorear
10 de junio de 2024
Lectura de 7 minutos

En los negocios, y demás actividades, la comunicación es fundamental.p Los acuerdos de nivel de servicio (SLA) exitosos funcionan sobre la base de este principio, sentando las bases para una relación exitosa entre proveedor y cliente.

Un acuerdo de nivel de servicio (SLA) es un componente fundamental de los contratos de proveedores de tecnología que describe los términos de servicio entre un proveedor de servicios y un cliente. Los SLA describen el nivel de rendimiento que se espera, cómo se medirá el rendimiento y las consecuencias si no se alcanza el nivel esperado. Los SLA garantizan que todas las partes interesadas entiendan el acuerdo de servicio y ayudan a forjar una relación de trabajo más fluida.

Tipos de SLA

Hay tres tipos principales de SLA:

SLA a nivel de cliente

Los SLA a nivel de cliente definen los términos de servicio entre un proveedor de servicios y un cliente. Un cliente puede ser externo, como una empresa que compra espacio en la nube a un proveedor, o interno, como es el caso de un SLA entre el equipo comercial y el de TI con respecto al desarrollo de un producto.

SLA a nivel de servicio

Los proveedores de servicios que ofrecen el mismo servicio a varios clientes suelen utilizar SLA a nivel de servicio. Los SLA a nivel de servicio no cambian en función del cliente, sino que describen un nivel general del servicio proporcionado para todos los clientes.

SLA multinivel

Cuando un proveedor de servicios ofrece un plan de precios de varios niveles para el mismo producto, a menudo ofrece SLA de varios niveles para comunicar con claridad el servicio que ofrece para cada nivel. Los SLA multinivel también se utilizan al crear acuerdos entre más de dos partes.

Componentes del SLA

Los SLA incluyen una descripción general de las partes involucradas, los servicios que se proporcionarán, información desglosada sobre los roles de las partes interesadas, el monitoreo del desempeño y los requisitos de los informes. Otros componentes de los SLA son, por ejemplo, protocolos de seguridad, acuerdos de reparación, procedimientos de revisión y cláusulas de rescisión, entre otros. Lo crucial es que definen cómo se medirá el rendimiento.

Los SLA deberían definir con precisión las principales métricas (métricas del acuerdo de nivel de servicio) que se utilizarán para medir el rendimiento del servicio. Estas métricas suelen estar relacionadas con los objetivos de nivel de servicio (SLO) de la organización (enlace externo a ibm.com). Mientras que los SLA definen el acuerdo entre la organización y el cliente, los SLO establecen objetivos de rendimiento internos. El cumplimiento de los acuerdos de nivel de servicio exige monitorear métricas importantes relacionadas con las operaciones empresariales y el rendimiento del proveedor de servicios. La clave está en monitorear las métricas adecuadas.

¿Qué es un KPI en un SLA?

Las métricas son medidas específicas de un aspecto del rendimiento del servicio, como la disponibilidad o la latencia. Los indicadores clave de rendimiento (KPI) están vinculados a los objetivos comerciales y se utilizan para evaluar el progreso de un equipo para lograr esos objetivos. Los KPI no existen sin objetivos comerciales; son “indicadores” del progreso para lograr un objetivo establecido.

A modo de ejemplo, veamos el crecimiento anual de las ventas con un objetivo organizacional de crecimiento del 30 % anual. Los KPI, como las renovaciones de suscripciones hasta la fecha o los clientes potenciales generados, proporcionan una instantánea en tiempo real del progreso del negocio hacia el objetivo de crecimiento de las ventas en el año.

Métricas como la disponibilidad y la latencia de las aplicaciones ayudan a proporcionar contexto. Por ejemplo, si la organización está perdiendo clientes y no está encaminada para alcanzar el objetivo anual, un examen de las métricas relacionadas con la satisfacción del cliente (es decir, la disponibilidad y la latencia de las aplicaciones) podría proporcionar algunas respuestas como por qué motivo se van los clientes.

Qué métricas de SLA monitorear

Los SLA contienen diferentes términos en función del proveedor, el tipo de servicio prestado, los requisitos del cliente y los estándares de cumplimiento normativo, entre otros. Además, las métricas varían según la industria y el caso de uso. Sin embargo, algunas métricas de rendimiento de los SLA, como la disponibilidad, el tiempo medio de recuperación, el tiempo de respuesta, las tasas de error y las medidas de seguridad y cumplimiento, se utilizan habitualmente en todos los servicios e industrias. Estas métricas establecen una línea de referencia para las operaciones y la calidad de los servicios prestados.

Definir con claridad qué métricas e indicadores clave de rendimiento (KPI) se utilizarán para medir el rendimiento y cómo se comunicará esta información ayuda a los equipos de gestión de servicios de TI (ITSM) a identificar qué datos recopilar y monitorear. Con los datos correctos, los equipos pueden mantener mejor los SLA y asegurarse de que los clientes sepan exactamente qué esperar.

Idealmente, los equipos de ITSM proporcionan información cuando se redactan los SLA, además de monitorear las métricas relacionadas con su cumplimiento. Involucrar a los equipos de ITSM al principio del proceso ayuda a garantizar que los equipos comerciales no establezcan acuerdos con los clientes que los equipos de TI no puedan cumplir.

Las métricas de SLA importantes que deberían monitorear los líderes de TI e ITSM incluyen las siguientes:

1. Disponibilidad

Las interrupciones en el servicio, o el tiempo de inactividad, son costosos, pueden dañar la credibilidad de la empresa y pueden generar problemas de cumplimiento. El SLA entre una organización y un cliente establece el nivel esperado de disponibilidad del servicio o tiempo de actividad y es un indicador de la funcionalidad del sistema.

La disponibilidad a menudo se mide en “nueves en camino a lograr el 100 %”: 90 %, 99 %, 99.9 %, etc. Muchos proveedores de nube y SaaS apuntan a un estándar de la industria de "cinco 9" o 99.999 % de tiempo de actividad.

Para algunas empresas, incluso una hora de tiempo de inactividad puede significar pérdidas importantes. Si se produce una interrupción en el servicio en un sitio web de comercio electrónico durante un momento de mucho tráfico, como el Black Friday, o durante una gran rebaja, puede dañar la reputación y los ingresos anuales de la empresa. Las interrupciones en el servicio también tienen un impacto negativo en la experiencia del cliente. Los servicios que no están disponibles de manera constante a menudo llevan a los usuarios a buscar alternativas. Las necesidades empresariales varían, pero la necesidad de proporcionar a los usuarios productos y servicios rápidos y eficientes es universal.

En general, se prefiere el máximo tiempo de actividad. Sin embargo, a los proveedores de algunas industrias les puede resultar más rentable ofrecer una tasa de disponibilidad ligeramente más baja si aún satisface las necesidades del cliente.

2. Tiempo medio de recuperación

El tiempo medio de recuperación mide la cantidad de tiempo promedio que se tarda en recuperar un producto durante una interrupción o falla. Ningún sistema o servicio es inmune a un problema o falla ocasional, pero las empresas con un tiempo de recuperación rápido tienen más probabilidades de mantener la rentabilidad del negocio, satisfacer las necesidades de los clientes y mantener los SLA.

3. Tiempo de respuesta y tiempo de resolución

Con frecuencia, los SLA establecen la cantidad de tiempo en el que un proveedor de servicios debe responder después de que se señala o registra un problema. Cuando se registra un problema o se realiza una solicitud de servicio, el tiempo de respuesta indica cuánto tiempo tarda el proveedor en responder y abordar el problema. El tiempo de resolución se refiere al tiempo que tarda el proveedor en resolver el problema. Minimizar estos tiempos es fundamental para mantener el rendimiento del servicio.

Las organizaciones deberían tratar de abordar los problemas antes de que se conviertan en errores presentes en todo el sistema y provoquen problemas de seguridad o cumplimiento. Las soluciones de software que ofrecen observabilidad de toda la pila de funciones empresariales pueden desempeñar un papel importante en el mantenimiento de sistemas optimizados y el rendimiento de los servicios. Muchas de estas plataformas utilizan herramientas de automatización y aprendizaje automático (ML) para automatizar el proceso de corrección o identificar problemas antes de que surjan.

Por ejemplo, los sistemas de detección de intrusos (IDS) impulsados por IA monitorean constantemente el tráfico de red en busca de actividad maliciosa, violaciones de los protocolos de seguridad o datos anómalos. Estos sistemas despliegan algoritmos de aprendizaje automático para monitorear grandes conjuntos de datos y utilizarlos para identificar datos anómalos. Las anomalías y las intrusiones activan alertas que notifican a los equipos de TI. Sin la IA y el aprendizaje automático, el monitoreo manual de estos grandes conjuntos de datos no sería posible.  

4. Tasas de error

Las tasas de error miden las fallas del servicio y la cantidad de veces que el rendimiento del servicio cae por debajo de los niveles definidos. Dependiendo de la empresa, las tasas de error pueden relacionarse con cualquier número de problemas vinculados con las funciones comerciales.

Por ejemplo, en la fabricación, las tasas de error se correlacionan con la cantidad de defectos o problemas de calidad en una línea de productos específica, o con la cantidad total de errores encontrados durante un intervalo de tiempo establecido. Estas tasas de error, o tasas de defectos, ayudan a las organizaciones a identificar la causa principal de un error y si está relacionado con los materiales utilizados o con un problema más general.

Hay un subconjunto de métricas basadas en el cliente que monitorean las interacciones de atención al cliente, que también se relacionan con las tasas de error.

  • Tasa de resolución en la primera llamada: En el ámbito de la atención al cliente, los problemas relacionados con las interacciones del help desk pueden influir en las tasas de error. El éxito de las interacciones de atención al cliente puede ser difícil de medir. No todos los clientes completan una encuesta o presentan una queja si no se resuelve un problema; algunos simplemente buscarán otro servicio. Una métrica que puede ayudar a medir las interacciones de atención al cliente es la tasa de resolución en la primera llamada. Esta tasa refleja si el problema de un usuario se resolvió durante la primera interacción con un help desk, chatbot o representante. Cada vez que se escala una consulta de atención al cliente, más allá del contacto inicial, significa gastar en recursos adicionales. Esto también puede afectar la experiencia del cliente.
  • Tasa de abandono: Esta tasa refleja la frecuencia con la que un cliente abandona su consulta antes de encontrar una resolución. La tasa de abandono también puede aumentar la tasa de error general y ayuda a medir la eficacia de un service desk, chatbot o agente humano.

5. Seguridad y cumplimiento normativo

Los grandes volúmenes de datos y el uso de servidores locales, servidores en la nube y un número creciente de aplicaciones crean un mayor riesgo de filtraciones de datos y amenazas de seguridad. Si no se monitorean de manera adecuada, las violaciones de seguridad y las vulnerabilidades pueden exponer a los proveedores de servicios a consecuencias legales y financieras.

Por ejemplo, la industria de la atención médica tiene requisitos específicos sobre cómo almacenar, transferir y eliminar los datos médicos de los pacientes. El incumplimiento de esta normativa puede resultar en multas e indemnización por las pérdidas ocasionadas a los clientes.

Aunque existen innumerables métricas específicas para cada sector definidas por los distintos servicios prestados, muchas de ellas se engloban en categorías más amplias. Para tener éxito, es importante que los equipos comerciales y los de gestión de servicios informáticos colaboren para mejorar la prestación de los servicios y satisfacer las expectativas de los clientes.

Beneficios de monitorear las métricas de SLA

El monitoreo de las métricas de SLA es la forma más eficiente para que las empresas evalúen si los servicios de TI satisfacen las expectativas de los clientes y para identificar cuáles son las áreas de mejora. Al monitorear las métricas y los KPI en tiempo real, los equipos de TI pueden identificar las debilidades del sistema y optimizar la prestación de los servicios.

Los principales beneficios de monitorear las métricas de SLA incluyen:

Mayor observabilidad

Una comprensión clara, de principio a fin, de las operaciones empresariales ayuda a los equipos de ITSM a encontrar formas de mejorar el rendimiento. Una mayor observabilidad permite a las organizaciones conocer mejor el funcionamiento de los sistemas y flujos de trabajo, identificar errores, equilibrar las cargas de trabajo de forma más eficiente y mejorar los niveles de rendimiento.

Rendimiento optimizado

Al monitorear las métricas correctas y utilizar la información obtenida de ellas, las organizaciones pueden proporcionar mejores servicios y aplicaciones, superar las expectativas de los clientes e impulsar el crecimiento del negocio.

Aumento de la satisfacción del cliente

Del mismo modo, el monitoreo de las métricas y los KPI de los SLA es una de las mejores formas de garantizar que los servicios satisfagan las necesidades de los clientes. En un campo empresarial abarrotado, la satisfacción del cliente es un factor clave para impulsar la retención de clientes y crear una reputación positiva.

Mayor transparencia

Al describir con claridad los términos de servicio, los SLA ayudan a eliminar la confusión y protegen a todas las partes. Los SLA bien elaborados dejan claro lo que todas las partes interesadas pueden esperar, ofrecen un cronograma bien definido de cuándo se prestarán los servicios y qué partes interesadas son responsables de acciones específicas. Cuando se hacen bien, los SLA ayudan a establecer el tono para una asociación fluida.

Comprender el rendimiento y superar las expectativas del cliente

La plataforma IBM Instana Observability e IBM Cloud Pak for AIOps pueden ayudar a los equipos a obtener información más sólida de sus datos y mejorar la prestación de los servicios.

IBM Instana Observability ofrece observabilidad de la pila completa en tiempo real, combinando automatización, contexto y acción inteligente en una sola plataforma. Instana ayuda a eliminar los silos operativos y proporciona acceso a los datos en los equipos de DevOps, SRE, ingeniería de plataformas e ITOps.

Los equipos de gestión de servicios de TI se benefician con IBM Cloud Pak for AIOps gracias a las herramientas automatizadas que abordan la gestión y corrección de incidentes. IBM Cloud Pak for AIOps ofrece herramientas para la innovación y la transformación de las operaciones de TI. Cumpla los SLA y monitoree las métricas con una solución de visibilidad avanzada que ofrece contexto de las dependencias en todos los entornos.

IBM Cloud Pak for AIOps es una plataforma AIOps que ofrece visibilidad de los datos de rendimiento y de las dependencias en todos los entornos. Permite a los gerentes de ITOps y a los ingenieros de confiabilidad del sitio (SRE) utilizar inteligencia artificial, aprendizaje automático y automatización para abordar mejor la gestión y corrección de incidentes. Con IBM Cloud Pak for AIOps, los equipos pueden innovar con mayor rapidez, reducir los costos operativos y transformar las operaciones de TI (ITOps).

Autor
Camilo Quiroz-Vázquez IBM Staff Writer