Minha IBM Efetue login Inscreva-se
O que é um objetivo de nível de serviço (SLO)?

O que é um objetivo de nível de serviço (SLO)?

Explore o objetivo SLO da IBM Inscreva-se para receber atualizações sobre IA
Ilustração com colagem de pictogramas de engrenagem, braço robótico, celular
O que é um SLO?

O que é um SLO?

Um objetivo de nível de serviço (SLO) é uma meta de desempenho acordada para um determinado serviço durante um período. Os SLOs definem o status esperado dos serviços e ajudam os stakeholders a gerenciar a integridade de serviços específicos, além de otimizar as decisões que equilibram inovação e confiabilidade.1

Os SLOs são medidos com indicadores de nível de serviço (SLIs), métricas quantitativas de algum aspecto do serviço. Os SLOs são parte de um acordo mais amplo entre os provedores de serviços e os clientes —contratos de nível de serviço (SLAs)— que descrevem o nível de serviço que um cliente pode esperar dos provedores e definem sanções se as metas não forem cumpridas.

Para garantir que os níveis de serviço sejam compatíveis com os requisitos de negócios, bem como com os desejos do cliente, as equipes de engenharia de confiabilidade local (SRE), DevOps, TI e outras equipes relevantes devem conhecer as jornadas críticas do usuário para cada aplicação: as interações que permitem que os usuários finais alcancem o resultado desejado.

A adesão interna é crucial para SLOs bem-sucedidos (e, portanto, SLAs), e vários stakeholders devem participar da determinação dos SLOs, incluindo gerentes de produtos, equipes de DevOps e de gerenciamento de problemas e engenheiros de infraestrutura. Os clientes externos são incorporados à discussão por meio de grupos focais, estudos, reclamações de clientes e redes sociais.

A lógica principal dos SLOs é que a confiabilidade do serviço leva à satisfação do usuário, o que traz maiores oportunidades de negócios. Estabelecer metas mensuráveis de confiabilidade ajuda as organizações a equilibrar uma experiência de usuário agradável e eficiente com um custo razoável: sem estourar o orçamento de TI com níveis de serviço além do que é necessário ou esperado.

Os SLOs são necessários porque definem as metas de qualidade de serviço (QoS) e confiabilidade em termos concretos, mensuráveis e objetivos. Eles não se destinam a definir o melhor nível de desempenho, mas sim uma variedade dos melhores padrões de desempenho possíveis e menos aceitáveis.1

O objetivo dos SLOs está bem resumido em 97 Things Every Cloud Engineer Should Know (link externo ao site ibm.com), da O`Reilly Media: “Como oferecer à gerência uma maneira fácil de entender instantaneamente as vantagens e desvantagens entre confiabilidade, velocidade de inovação e custo? Os SLOs são a resposta. Os SLOs criam diretrizes claras de confiabilidade que equilibram as escolhas entre os custos da nuvem, a velocidade da mudança e os riscos externos”.

Desmascarando os mitos da observabilidade

Este ebook tem como objetivo desmistificar mitos sobre a observabilidade e destacar seu papel no mundo digital.

Conteúdo relacionado Cadastre-se para receber o guia para operacionalizar o FinOps
SLO, SLI ou SLA

SLO, SLI ou SLA

Os SLOs são um dos vários termos inter-relacionados envolvidos no acompanhamento e avaliação do desempenho do serviço:

Indicador de nível de serviço (SLI)

Um SLI é uma medida quantitativa de algum aspecto de um serviço. Os SLIs fornecem os números reais (os indicadores de desempenho do sistema), como taxas de erro, taxas de transferência de lote ou latência das solicitações. Normalmente, as medições são agregadas e apresentadas como uma taxa, média ou percentil.

Objetivo de nível de serviço (SLO)

SLOs são os valores-alvo dessas medições (como garantir que o tempo de resposta fique abaixo de 200 milissegundos, por exemplo) que devem ser atendidos para cumprir os acordos de nível de serviço (SLAs). Esses valores costumam ser expressos como uma porcentagem ao longo de um período.

Contrato de nível de serviço (SLA)

 

Os SLAs são os contratos entre fornecedores e clientes, compostos por SLOs individuais, que garantem um determinado nível para atividades, funções ou processos de serviço. Eles também definem as sanções caso o contrato não seja cumprido.

Orçamento de erros

Um orçamento de erros é um aspecto dos SLOs que define a quantidade aceitável de falhas que podem ocorrer e o limite para rescisão do contrato. Um orçamento de erros permite a incorporação do downtime planejado ou não planejado do serviço que é inevitável na prática. A inclusão do downtime permite que as equipes de desenvolvimento tomem decisões fundamentadas sobre novos desenvolvimentos, operações, atualizações ou correções de softwares instalados.

Como os SLOs são medidos

Como os SLOs são medidos

A confiabilidade e a responsividade costumam ser medidas em “noves até 100%”: 90%, 99%, 99,9% e assim por diante. Por exemplo, um objetivo para a disponibilidade de CPU poderia ser expresso assim:

Nível de confiabilidade

Período de não confiabilidade permitido

 
 

 

 

 

 

Por ano

Por trimestre

Por 30 dias

  90%

36,5 dias

9 dias

3 dias

  95%

18,25 dias

4,5 dias

1,5 dia

  99%

3,65 dias

21,6 horas

7,2 horas

  99,5%

1,83 dia

10,8 horas

3,6 horas

  99,9%

8,76 horas

2,16 horas

43,2 minutos

  99,95%

4,38 horas

1,08 horas

21,6 minutos

  99,99%

52,6 minutos

12,96 minutos

4,32 minutos

  99,999%

5,26 minutos

1,30 minutos

26,9 segundos

 

 

 

 

Cada casa decimal mais próxima de 100 geralmente envolve maior custo e complexidade para ser alcançada. Os clientes (internos e externos) podem exigir um certo nível de capacidade de resposta, após o qual não conseguem mais detectar nenhuma diferença. A definição de SLOs é uma mistura entre ciência e arte, buscando um equilíbrio entre perfeição estatística e metas realistas e econômicas.

A equipe de desenvolvimento pode querer fornecer novas funcionalidades, enquanto a equipe de operações busca oferecer estabilidade e qualidade, introduzindo mudanças de forma controlada. Como a empresa fornece produtos ou serviços a clientes internos e externos, é importante medir qualquer nível de serviço de acordo com o ponto de vista desses clientes.

Os SLOs ajudam a unir organizações em torno da confiabilidade. Por fim, os stakeholders devem concordar com um SLO mensurável para o cliente que seja um equilíbrio eficaz entre velocidade e qualidade do serviço.

Por que os SLOs são importantes?

Por que os SLOs são importantes?

Em um nível básico, os objetivos de nível de serviço são importantes porque garantem a confiabilidade do serviço e o cumprimento dos contratos de nível de serviço. Se você estiver cumprindo os SLAs, seus clientes ficarão satisfeitos, o que, por sua vez, é bom para os negócios.

Os SLOs não são só valiosos para os clientes externos, mas também oferecem insights valiosos para os clientes internos. Os SLOs ajudam várias equipes a avaliar o desempenho de serviços e aplicações e determinar possíveis maneiras de melhorar. Entre outros benefícios, os SLOs ajudam as organizações a:

Estabelecer a confiabilidade e eficiência do sistema

Os problemas de confiabilidade podem custar caro à sua empresa. Quando os SLOs são configurados corretamente, você pode ver e descobrir lacunas na observabilidade. A configuração de SLO pode ser o único lugar onde você pode centralizar os insights de várias ferramentas de monitoramento usadas em sua organização. Uma melhor observabilidade ajuda você a fornecer produtos melhores, reduzir a perda de clientes e operar com mais eficiência.

Melhorar os produtos e a experiência do usuário

SLOs e SLIs fornecem insights sobre o desempenho de serviços e aplicações, além de fornecem às equipes uma medida precisa do downtime e outros possíveis problemas. Essas informações são úteis para as equipes de DevOps, TI e outras que buscam encontrar um equilíbrio entre inovação e confiabilidade à medida que atualizam os produtos existentes e lançam novas funcionalidades.

Um SLO bem pensado que mede a integridade dos seus microsserviços, conforme a experiência do seus clientes, fornece insights inestimáveis sobre o desempenho dos produtos e a experiência do usuário.

Alinhar melhor as equipes internas e melhorar a tomada de decisões

Tanto o estabelecimento quanto o monitoramento de SLOs ajudam a unir equipes de toda a organização em torno da compreensão de um serviço e das expectativas associadas. SLOs cuidadosamente analisados ajudam a promover uma cultura de comunicação, em que todos os stakeholders avaliam o que suas unidades esperam de um serviço e entendem seu papel em garantir que os SLAs sejam cumpridos.

Além disso, a criação de relatórios e automações com SLOs ajuda cada membro da sua equipe a responder perguntas sobre incidentes com mais rapidez. Os SLOs são importantes para suas equipes de DevOps, infraestrutura e SRE, mas também ajuda a transformar quase todos os aspectos da sua empresa. Os dados coletados por meio da observabilidade podem ser convertidos em informações acessíveis, contextualizadas e praticáveis. Esses insights trazem a visibilidade de que suas equipes precisam para tomar decisões oportunas e econômicas.

Aproveite a automação

Com metas claramente articuladas, as organizações podem recorrer à automação para monitorar e medir SLIs. Essa abordagem ajuda no cumprimento das metas, com o objetivo de ir além do monitoramento para automatizar totalmente os processos de ponta a ponta.

Um sistema de monitoramento automatizado ajuda a detectar possíveis problemas à medida que eles se desenvolvem, antes que o desempenho do serviço não alcance as metas estabelecidas nos SLOs ou viole os SLAs. Após a definição dos processos que atendem aos SLOs, a automação pode ser implementada para garantir um desempenho consistente, por exemplo, ao usar uma plataforma que automatiza a alocação de recursos com base na demanda de cargas de trabalho.

Reduza o tempo de inatividade

Os SLOs fornecem às equipes de DevOps a previsão para identificar possíveis problemas antes que eles ocorram. Essa previsão evita downtimes inaceitáveis ou outros eventos que possam prejudicar o usuário final ou custar caro à empresa.

Os SLAs geralmente usam porcentagens mensais de downtime ou disponibilidade para calcular o faturamento. A duração do downtime corresponde ao período em que um sistema não consegue executar sua função principal. As falhas de comunicação, por exemplo, podem causar a paralisação da rede. O padrão de disponibilidade no setor permanece alto, assim como o custo do downtime, que está sempre aumentando. Além do impacto financeiro, a violação de SLOs também pode levar à insatisfação dos clientes.

Mudar para o gerenciamento de incidentes preditivo

Muitas organizações funcionam com base em um processo reativo de gerenciamento de incidentes. Entretanto, quando você espera até que um incidente ocorra, leva mais tempo para atenuar e resolver os problemas no seu sistema, aumentando o tempo médio até o reparo (MTTR)1. SLOs bem estabelecidos melhoram a observabilidade e permitem que as organizações sejam mais proativas em relação ao gerenciamento de incidentes.

Minimizar o esgotamento dos funcionários

Alertas irrelevantes não só aumentam os custos operacionais, mas também podem levar a altas taxas de esgotamento, quando os engenheiros perdem tempo e produtividade ao responderem a alertas inexistentes. Um dos maiores desafios em relação a isso é simplesmente encontrar o equilíbrio certo entre muitos e poucos alertas.

Um alerta relevante é aquele que avisa um engenheiro quando a degradação pode levar ao descumprimento de uma meta de confiabilidade: um alerta baseado em sintomas. Tomemos como exemplo uma situação em que a latência de um serviço na última hora pode fazer com que o SLO de latência fique fora de conformidade durante toda a semana. Nesse caso, trata-se de um problema real.

Melhores práticas de SLO

Melhores práticas de SLO

Se você perguntar às pessoas da área comercial qual deve ser a meta de tempo de atividade do sistema, muitas delas dirão que gostariam de alcançar 100%. Essa é uma meta muito ambiciosa e também muito cara, além de poder consumir a maior parte do seu orçamento de TI antes de qualquer outra coisa. Os SLOs não são projetados para se vangloriar, mas sim para encontrar e atender às expectativas dos clientes, para que você possa mantê-los satisfeitos e fiéis à sua empresa. A confiabilidade é um meio, não um fim.

O fato de uma métrica de desempenho ser mensurável não implica que seja importante para a satisfação do cliente ou para seus resultados financeiros. Priorize. Concentre-se nas métricas que mais indicam uma boa experiência do cliente.

Em Foundations of Service Level Management (link externo ao site ibm.com), Rick Sturm e Wayne Morris apresentam estes requisitos para definir SLOs realistas:

Os SLOs devem ser:

· Realizáveis

· Repetíveis

· Mensuráveis

· Compreensíveis

· Significativos

· Controláveis

· Economicamente acessíveis

· Mutualmente aceitáveis

Observe que a lista começa com “realizáveis”. Ter metas excessivamente ambiciosas é muito caro e pode fornecer mais tempo de atividade do que o esperado pelos clientes. Veja algumas boas práticas importantes que ajudam você a alcançar seus objetivos de SLO:

Não se empolgue

Defina SLOs que atendam ao SLA ou ao objetivo de negócios. Ter 20 SLOs é realmente 4 vezes melhor do que ter 5 SLOs? Ou isso simplesmente criaria mais trabalho para sua equipe de TI e confundiria o cliente, sem nenhum benefício significativo? Não sinta que precisa avaliar tudo o que pode ser medido.

Não tente ser um herói

Defina metas realistas de SLO em vez de prometer demais e depois não cumprir as promessas, o que pode custar multas e talvez até fazer a empresa perder um cliente. Ser realista com os stakeholders internos e também com os clientes permite que todos tomem decisões fundamentadas. Metas de SLO irrealisticamente altas custarão mais no longo prazo.

Use os SLOs para promover o alinhamento dos negócios

Ao concordar com expectativas realistas desde o início, você evita confusões e conflitos futuros entre as equipes internas e com o cliente.

Automatize as avaliações

As planilhas manuais de coleta de métricas podem retardar a remediação e talvez não permitam a análise da causa raiz. Colete SLIs relevantes para avaliar SLOs automaticamente e crie alertas automáticos antes que um SLO seja violado. Inclua o contexto de que sua equipe precisa e as dependências para resolver uma questão antes que ela se torne um problema significativo.

Soluções relacionadas

Soluções relacionadas

Observabilidade IBM Instana Observability

O IBM® Instana democratiza a observabilidade, fornecendo uma solução que todos os profissionais de DevOps, SRE, plataformas, ITOps e desenvolvimento podem usar para obter os dados desejados com o contexto necessário. Desenvolvida especificamente para ambientes nativos da nuvem, mas independente em termos de tecnologia, a plataforma fornece dados de alta fidelidade, de forma automática e contínua, com granularidade de 1 segundo e rastreamentos de ponta a ponta, juntamente com o contexto das dependências lógicas e físicas entre dispositivos móveis, web, aplicações e infraestrutura.

Conheça o Instana Solicite uma demonstração do Instana Observability

Otimização de custos de nuvem híbrida IBM Turbonomic

A plataforma de otimização de custos de nuvem híbrida IBM® Turbonomic permite que você automatize continuamente ações críticas em tempo real que oferecem de forma proativa o uso mais eficiente dos recursos de computação, armazenamento e rede para suas aplicações em cada camada do stack. 

Explore o Turbonomic Conheça o Turbonomic sem custo
Recursos

Recursos

Documentação da IBM: SLOs

Saiba como o Instana ajuda você a criar e gerenciar seus objetivos de nível de serviço para analisar a qualidade das metas de serviço e confiabilidade em termos concretos, mensuráveis e objetivos.

Guia corporativo de observabilidade

Descubra como a observabilidade empresarial ajudar você a saber como tudo está se comportando, em todos os lugares, de uma vez só.

O que é engenharia de confiabilidade local?

Automatize tarefas de operações de TI, acelere a entrega de software e minimize os riscos de TI com engenharia de confiabilidade local.

Dê o próximo passo

O IBM Instana fornece observabilidade em tempo real que todos e qualquer um podem usar. Ele proporciona um rápido time to value enquanto verifica se sua estratégia de observabilidade pode acompanhar a complexidade dinâmica dos ambientes atuais e futuros. Do celular ao mainframe, o Instana é compatível com mais de 250 tecnologias e está crescendo. 

Explore o IBM Instana Agende uma demonstração em tempo real
Notas de rodapé

1Service level objectives”, IBM, 6 de setembro de 2023.