Cinco métricas de SLA que você deve monitorar
10 de junho de 2024
7 min de leitura

No mundo dos negócios e além, a comunicação é fundamental. Acordos de nível de serviço (SLAs) bem-sucedidos operam com esse princípio, estabelecendo a base para relacionamentos bem-sucedidos entre provedores e clientes.

Um SLA (acordo de nível de serviço) é um componente essencial dos contratos com fornecedores de tecnologia, que descreve os termos do serviço entre um provedor e um cliente. SLAs detalham o nível de desempenho esperado, como esse desempenho será medido e as repercussões caso os níveis não sejam alcançados. Eles garantem que todos os stakeholders compreendam o acordo de serviço e ajudam a forjar um relacionamento de trabalho mais eficiente.

Tipos de SLAs

Existem três tipos principais de SLAs:

SLAs de nível do cliente

Esses SLAs definem os termos de serviço entre um provedor e um cliente. O cliente pode ser externo, como uma empresa que compra armazenamento em nuvem de um fornecedor, ou interno, como em um SLA entre as equipes de negócios e TI para o desenvolvimento de um produto.

SLAs de nível de serviço

Provedores que oferecem o mesmo serviço para vários clientes frequentemente utilizam SLAs de nível de serviço. Esses SLAs não mudam com base no cliente, definindo um nível geral de serviço fornecido a todos os clientes.

SLA multinível

Quando um provedor oferece um plano de preços com vários níveis para o mesmo produto, o SLA multinível é frequentemente usado para comunicar claramente o serviço oferecido em cada nível. Também é usado ao criar acordos entre mais de duas partes.

Componentes do SLA

Os SLAs incluem uma visão geral dos stakeholders, serviços a serem prestados, funções dos stakeholders, requisitos de monitoramento e relatórios de desempenho. Outros componentes incluem protocolos de segurança, acordos de redirecionamento, procedimentos de revisão, cláusulas de rescisão, entre outros. Criticamente, eles definem como o desempenho será medido.

Os SLAs devem definir com precisão as principais métricas, métricas de nível de serviço, que serão usadas para medir o desempenho do serviço. Essas métricas geralmente estão relacionadas aos objetivos de nível de serviço (SLOs) organizacionais (link fora de ibm.com). Enquanto os SLAs definem o acordo entre a organização e o cliente, os SLOs estabelecem metas internas de desempenho. Cumprir os SLAs exige o monitoramento de métricas importantes relacionadas às operações empresariais e ao desempenho do fornecedor de serviços. A chave é monitorar as métricas certas.

O que é um KPI em um SLA?

Métricas são medidas específicas de um aspecto do desempenho do serviço, como disponibilidade ou latência. Indicadores-chave de desempenho (KPIs) estão vinculados a metas de negócios e são usados para avaliar o progresso de uma equipe em relação a essas metas. Os KPIs são “indicadores” do progresso em direção a um objetivo declarado.

Por exemplo, considere um objetivo organizacional de crescimento anual de 30%. KPIs como renovações de assinatura ou leads gerados fornecem uma visão em tempo real do progresso da empresa em relação a essa meta de crescimento.

Métricas como disponibilidade e latência da aplicação ajudam a fornecer contexto. Por exemplo, se a organização está perdendo clientes e não está no caminho certo para cumprir a meta anual, um exame das métricas relacionadas à satisfação do cliente (ou seja, disponibilidade e latência da aplicação) pode fornecer algumas respostas sobre o motivo pelo qual os clientes estão saindo.

Quais métricas de SLA monitorar

Os SLAs contêm termos que variam de acordo com o fornecedor, tipo de serviço, requisitos do cliente, padrões de conformidade, entre outros, e as métricas variam conforme o setor e a aplicação. No entanto, métricas como disponibilidade, tempo médio de recuperação, tempo de resposta, taxas de erro e medições de segurança e conformidade são comumente usadas em diversos serviços e setores. Essas métricas definem uma linha de base para as operações e a qualidade dos serviços prestados.

Definir claramente quais métricas e KPIs serão usados para medir o desempenho e como essa informação será comunicada ajuda as equipes de gerenciamento de serviços de TI (ITSM) a identificar quais dados coletar e monitorar. Com os dados certos, as equipes podem manter os SLAs de forma mais eficiente e garantir que os clientes saibam exatamente o que esperar.

Idealmente, as equipes de ITSM participam do processo de criação dos SLAs e monitoram as métricas relacionadas ao seu cumprimento. Incluir as equipes de ITSM desde o início ajuda a garantir que as equipes de negócios não firmem acordos com clientes que não sejam possíveis para as equipes de TI.

Métricas de SLA importantes para líderes de TI e ITSM monitorarem incluem:

1. Disponibilidade

Interrupções de serviço, ou períodos de inatividade, são custosos, podem prejudicar a credibilidade da empresa e levar a problemas de conformidade. O SLA entre uma organização e um cliente estabelece o nível esperado de disponibilidade ou tempo de operação do serviço, sendo um indicador de funcionalidade do sistema.

A disponibilidade é frequentemente medida em "noves no caminho para 100%": 90%, 99%, 99,9% e assim por diante. Muitos provedores de nuvem e SaaS buscam um padrão do setor de "cinco noves" ou 99,999% de tempo de atividade.

Para determinados negócios, até mesmo uma hora de downtime pode gerar perdas significativas. Se um site de comércio eletrônico sofrer uma interrupção durante um período de tráfego intenso, como a Black Friday ou uma grande promoção, isso pode prejudicar a reputação da empresa e sua receita anual. As interrupções de serviço também impactam negativamente a experiência do cliente. Serviços que não estão disponíveis de forma consistente muitas vezes levam os usuários a buscar alternativas. As necessidades empresariais variam, mas a necessidade de fornecer produtos e serviços rápidos e eficientes é universal.

Geralmente, o tempo de atividade máximo é preferido. No entanto, provedores em alguns setores podem considerar mais eficaz em termos de custo oferecer uma taxa de disponibilidade ligeiramente menor, desde que ainda atenda às necessidades dos clientes.

2. Tempo médio de recuperação

O tempo médio de recuperação mede a quantidade média de tempo necessária para recuperar um produto durante uma falha ou interrupção. Nenhum sistema ou serviço é imune a falhas ocasionais, mas empresas que conseguem se recuperar rapidamente têm maior probabilidade de manter a lucratividade, atender às necessidades dos clientes e cumprir os SLAs.

3. Tempo de resposta e tempo de resolução

SLAs frequentemente estipulam o tempo necessário para que um provedor de serviço responda após a sinalização ou registro de um problema. Quando um problema é registrado ou uma solicitação de serviço é feita, o tempo de resposta indica quanto tempo leva para o provedor responder e começar a lidar com o problema. O tempo de resolução refere-se a quanto tempo leva para que o problema seja resolvido. Minimizar esses tempos é fundamental para manter o desempenho do serviço.

As organizações devem buscar resolver problemas antes que eles se tornem falhas de sistema generalizadas e causem problemas de segurança ou conformidade. Soluções de software que oferecem observabilidade de ponta a ponta nas funções empresariais podem desempenhar um papel importante na manutenção de sistemas otimizados e no desempenho do serviço. Muitas dessas plataformas utilizam ferramentas de automação e aprendizado de máquina (ML) para automatizar o processo de remediação ou identificar problemas antes que eles surjam.

Por exemplo, sistemas de detecção de intrusão (IDS) baseados em IA monitoram constantemente o tráfego de rede em busca de atividades maliciosas, violações de protocolos de segurança ou dados anômalos. Esses sistemas utilizam algoritmos de aprendizado de máquina para monitorar grandes conjuntos de dados e identificar dados anômalos. Anomalias e intrusões geram alertas que notificam as equipes de TI. Sem IA e aprendizado de máquina, monitorar manualmente esses grandes conjuntos de dados seria inviável.

4. Taxas de erros

As taxas de erro medem as falhas de serviço e o número de vezes que o desempenho do serviço fica abaixo dos padrões definidos. Dependendo da empresa, as taxas de erro podem estar relacionadas a uma série de questões ligadas às funções de negócios.

Por exemplo, na manufatura, as taxas de erro estão correlacionadas ao número de defeitos ou problemas de qualidade em uma linha de produtos específica, ou ao número total de erros encontrados durante um intervalo de tempo definido. Essas taxas de erro, ou taxas de defeito, ajudam as organizações a identificar a causa raiz de um erro e se ele está relacionado aos materiais usados ou a um problema mais amplo.

Há um subconjunto de métricas baseadas em clientes que monitora as interações de atendimento ao cliente, também relacionadas às taxas de erro.

  • Taxa de resolução no primeiro contato: no atendimento ao cliente, questões relacionadas a interações com o help desk podem influenciar as taxas de erro. O sucesso nas interações de atendimento ao cliente pode ser difícil de avaliar. Nem todos os clientes preenchem uma pesquisa ou registram uma reclamação se um problema não for resolvido, alguns simplesmente buscam outro serviço. Uma métrica que ajuda a medir as interações de atendimento ao cliente é a taxa de resolução no primeiro contato. Essa taxa reflete se o problema do usuário foi resolvido na primeira interação com um help desk, chatbot ou representante. Cada escalonamento de uma consulta de atendimento ao cliente além do contato inicial implica em custos extras de recursos. Também pode impactar a experiência do cliente.
  • Taxa de abandono: essa taxa reflete a frequência com que um cliente abandona sua consulta antes de encontrar uma resolução. A taxa de abandono pode também contribuir para a taxa geral de erro e ajuda a medir a eficácia de um service desk, chatbot ou equipe humana.

5. Segurança e conformidade

Altos volumes de dados e o uso de servidores locais, servidores em nuvem e um número crescente de aplicações aumentam o risco de violações de dados e ameaças à segurança. Se não forem monitoradas adequadamente, as falhas de segurança e vulnerabilidades podem expor os provedores de serviço a repercussões legais e financeiras.

Por exemplo, o setor de saúde possui requisitos específicos sobre como armazenar, transferir e descartar dados médicos dos pacientes. O não cumprimento desses padrões de conformidade pode resultar em multas e compensações por perdas sofridas pelos clientes.

Embora existam inúmeras métricas específicas de setor definidas pelos diferentes serviços oferecidos, muitas delas se enquadram em categorias mais amplas. Para alcançar o sucesso, é importante que as equipes de negócios e as equipes de gerenciamento de serviços de TI trabalhem juntas para melhorar a entrega de serviços e atender às expectativas dos clientes.

Benefícios do monitoramento de métricas de SLA

Monitorar métricas de SLA é a maneira mais eficiente para que as empresas avaliem se os serviços de TI estão atendendo às expectativas dos clientes e identifiquem áreas para melhoria. Ao monitorar métricas e KPIs em tempo real, as equipes de TI podem identificar fraquezas no sistema e otimizar a entrega de serviços.

Os principais benefícios de monitorar métricas de SLA incluem:

Maior observabilidade

Uma compreensão clara e de ponta a ponta das operações de negócios ajuda as equipes de ITSM a encontrar formas de melhorar o desempenho. Maior observabilidade permite que as organizações obtenham insights sobre o funcionamento de sistemas e fluxos de trabalho, identifiquem erros, equilibrem cargas de trabalho de maneira mais eficiente e melhorem os padrões de desempenho.

Desempenho otimizado

Ao monitorar as métricas certas e usar os insights obtidos, as organizações podem fornecer melhores serviços e aplicações, superar as expectativas dos clientes e impulsionar o crescimento dos negócios.

Maior satisfação do cliente

Da mesma forma, monitorar métricas e KPIs de SLA é uma das melhores maneiras de garantir que os serviços estão atendendo às necessidades dos clientes. Em um mercado competitivo, a satisfação do cliente é um fator chave para impulsionar a retenção de clientes e construir uma reputação positiva.

Maior transparência

Ao definir claramente os termos de serviço, os SLAs ajudam a eliminar confusões e proteger todas as partes. SLAs bem elaborados deixam claro o que todos os stakeholders podem esperar, oferecem um cronograma bem definido de quando os serviços serão prestados e quais stakeholders são responsáveis por ações específicas. Quando bem feitos, os SLAs ajudam a definir o tom para uma parceria harmoniosa.

Compreender o desempenho e superar as expectativas dos clientes

A plataforma IBM Instana Observability e o IBM Cloud Pak for AIOps ajudam as equipes a obter insights mais robustos de seus dados e a melhorar a entrega de serviços.

O IBM Instana Observability oferece observabilidade full-stack em tempo real, combinando automação, contexto e ação inteligente em uma única plataforma. O Instana ajuda a eliminar silos operacionais e fornece acesso a dados para equipes de DevOps, SRE, engenharia de plataforma e ITOps.

As equipes de gerenciamento de serviços de TI se beneficiam do IBM Cloud Pak for AIOps por meio de ferramentas automatizadas que abordam o gerenciamento de incidentes e a remediação. O IBM Cloud Pak for AIOps oferece ferramentas para inovação e transformação das operações de TI. Atenda aos SLAs e monitore métricas com uma solução avançada de visibilidade que oferece contexto sobre dependências em vários ambientes.

O IBM Cloud Pak for AIOps é uma plataforma de AIOps que oferece visibilidade sobre dados de desempenho e dependências em diferentes ambientes. Ela permite que gerentes de ITOps e engenheiros de confiabilidade de sites (SREs) utilizem inteligência artificial, aprendizado de máquina e automação para melhor gerenciar incidentes e remediação. Com o IBM Cloud Pak for AIOps, as equipes podem inovar mais rapidamente, reduzir custos operacionais e transformar as operações de TI (ITOps).

Autor
Camilo Quiroz-Vázquez IBM Staff Writer