Gerenciamento de incidentes versus gerenciamento de problemas: qual é a diferença?

Todos os dias, bilhões de pessoas em todo o mundo usam seus computadores ou dispositivos móveis para acessar a internet. Invariavelmente, alguns desses usuários tentam acessar um site que é lento para carregar ou propenso a falhas.

Uma das razões para o baixo desempenho do site é que muitas pessoas estavam tentando acessar o site ao mesmo tempo, sobrecarregando os servidores. No entanto, isso também pode ser indicativo de uma preocupação maior, incluindo configuração incorreta de DNS, uma falha duradoura do servidor ou um ataque malicioso de um agente mal-intencionado.

Incidentes são erros ou complicações no serviço de TI que precisam ser corrigidos. Muitos desses incidentes são desafios temporários que requerem uma solução específica, mas aqueles que apontam para questões subjacentes ou mais complicadas que requerem lidar com mais abrangente são chamados de problemas.

Isso explica a existência do gerenciamento de incidentes e problemas, dois processos importantes para controle de problemas e erros, manutenção do tempo de atividade e, por fim, entrega de um ótimo serviço aos clientes e outros stakeholders.

As organizações dependem cada vez mais de tecnologias digitais para atender seus clientes e colaborar com parceiros. O stack de tecnologia de uma organização pode criar oportunidades novas e empolgantes para expandir os negócios. Mas um erro no serviço também pode criar interrupções exponenciais e danos à sua reputação e integridade financeira.

O que é gerenciamento de incidentes?

O gerenciamento de incidentes é como as organizações identificam, rastreiam e resolvem incidentes que podem interromper os processos de negócios nrmais. Muitas vezes, é um processo reativo em que ocorre um incidente e a organização fornece uma resposta a incidentes o mais rápido possível.

O aumento de organizações que buscam a transformação digital e outras operações baseadas na tecnologia torna o gerenciamento de incidentes ainda mais importante, dada a dependência da tecnologia para apresentar soluções aos clientes.

Os serviços de TI das organizações são cada vez mais compostos por um sistema complexo de aplicações, software, hardware e outras tecnologias, que podem ser interdependentes. Processos individuais podem falhar, interrompendo o serviço que prestam aos clientes, custando dinheiro à empresa e criando problemas de reputação. As organizações adotaram procedimentos de operações de desenvolvimento avançadas (DevOps) para minimizar incidentes, mas precisam de um processo de resolução para quando ocorrerem.

Todos os dias, as organizações encontram e precisam gerenciar incidentes menores e maiores, todos os quais têm o potencial de interromper as funções normais de negócios. As organizações precisam prestar atenção a vários tipos de incidentes, incluindo interrupções não planejadas, como interrupções do sistema, problemas de configuração de rede, bugs, incidentes de segurança, perda de dados e muito mais.

Com o aumento da complexidade das stacks de tecnologia, torna-se ainda mais importante gerenciar estrategicamente o processo de gerenciamento de incidentes. Para garantir que todos na organização saibam o que fazer se encontrarem um incidente.

Os sistemas de gerenciamento de incidentes evoluíram de ferramentas simples em que os funcionários registravam os incidentes que observaram (que poderiam ocorrer horas após a ocorrência). Para uma prática robusta e sempre ativa com automação e software de gerenciamento de incidentes de autoatendimento, permitindo que qualquer pessoa na organização relate um incidente para a central de atendimento.

É importante resolver os incidentes imediatamente e evitar que aconteçam novamente. Isso permite que as organizações cumpram seu contrato de nível de serviço (SLA), o que pode garantir uma certa quantidade de tempo de atividade ou acesso aos serviços. O não cumprimento de um SLA pode colocar sua organização em risco legal ou de reputação.

O gerente de incidentes é a principal stakeholder do processo de gerenciamento de incidentes. Um gerente de incidentes é responsável por gerenciar a resposta a um incidente e comunicar o progresso aos stakeholders. É uma função complexa de serviços de TI que exige que o funcionário atue sob condições estressantes enquanto se comunica com stakeholders com diferentes funções e prioridades na empresa.

O que é gerenciamento de problemas?

O objetivo do gerenciamento de problemas é evitar a recorrência do incidente, lidando com a causa raiz. Ele segue logicamente o gerenciamento de incidentes, especialmente se esse incidente tiver ocorrido várias vezes e provavelmente deve ser diagnosticado como um problema ou erro conhecido.

O gerenciamento de incidentes sem gerenciamento de problemas lida com os sintomas e não com a causa raiz, levando a uma probabilidade de que incidentes semelhantes ocorram no futuro. O gerenciamento eficaz de problemas identifica uma solução permanente para os problemas, diminuindo o número de incidentes que uma organização terá que gerenciar no futuro.

Uma equipe de gerenciamento de problemas pode se envolver em um gerenciamento de problemas reativo ou proativo, dependendo de quais incidentes ela observa e quais dados históricos ela tem.

Diferenças entre gerenciamento de incidentes e gerenciamento de problemas

Há uma grande diferença a considerar ao observar incidentes versus problemas: metas de curto prazo versus metas de longo prazo.

O gerenciamento de incidentes está mais preocupado em intervir em uma instância de problema com o objetivo declarado de colocar esse serviço novamente online sem causar problemas adicionais. É uma ferramenta de curto prazo para manter o serviço em execução naquele exato momento.

O gerenciamento de problemas se concentra mais na resposta de longo prazo, lidando com qualquer possível causa subjacente como parte de uma questão maior (ou seja, um problema).

Como o gerenciamento de incidentes e o gerenciamento de problemas funcionam juntos?

As organizações tentam manter sua infraestrutura de TI em boa posição usando o gerenciamento de serviços de TI (ITSM) para governa a implementação, a entrega e o gerenciamento de serviços que atendem às necessidades dos usuários finais. O ITSM visa minimizar o downtime não programado e garantir que todos os recursos de TI funcionem conforme o esperado para cada usuário final.

Os problemas surgem independentemente de quanto esforço as organizações dedicam ao ITSM. A capacidade de uma organização de lidar com e fazer correções de problemas imprevistos antes que eles se transformem em problemas maiores pode ser uma enorme vantagem competitiva. A falha de um serviço de TI uma vez é considerada um incidente.

Por exemplo, muitas pessoas tentando acessar um servidor podem causar falhas, criando um incidente que a organização precisa corrigir. O gerenciamento de incidentes está relacionado à resolução daquele problema específico que afeta seus usuários da forma mais rápida e cuidadosa possível. Nesse caso, um gerente de incidentes pode entrar em contato com os funcionários da organização e pedir que eles saiam dos programas enquanto a organização resolve o problema.

O gerenciamento de incidentes e o gerenciamento de problemas são regidos pelo Information Technology Infrastructure Library (ITIL), um framework de orientação amplamente adotada para implementar e documentar ambas as abordagens de gerenciamento. O ITIL cria a estrutura para responder reativamente aos incidentes à medida que eles ocorrem. A versão mais atualizada no momento da elaboração é o ITIL 4.

Ele fornece uma biblioteca de melhores práticas para gerenciar ativos de TI e melhorar o suporte e os níveis de serviço de TI. Os processos ITIL conectam os serviços de TI às operações de negócios para que eles possam mudar quando os objetivos de negócios mudam. 

Um componente essencial do ITIL é o banco de dados de gerenciamento de configuração (CMDB), que rastreia e gerencia a interdependência de todo o software, componentes de TI, documentos, usuários e hardware necessários para fornecer um serviço de TI. O ITIL também cria uma distinção entre gerenciamento de incidentes e gerenciamento de problemas.

Um servidor que trava constantemente pode representar um problema sistemático maior, como falha de hardware ou configuração incorreta. As falhas podem continuar se a equipe de serviços de TI não conseguir descobrir a causa raiz e mapear uma solução para o problema subjacente. Nesse caso, a resposta pode exigir uma escalada para o gerenciamento de problemas, que se preocupa com a correção de incidentes repetidos.

O gerenciamento de problemas oferece uma análise da causa raiz do problema e uma solução recomendada, que identifica os recursos necessários para evitar que ele aconteça novamente.

Principais componentes do gerenciamento de incidentes e problemas

O gerenciamento eficaz de incidentes e problemas engloba um fluxo de trabalho estruturado que requer monitoramento em tempo real, automação e trabalhadores dedicados coordenando para resolver problemas o mais rápido possível para evitar downtime desnecessário ou interrupções de negócios. Ambas as formas de gerenciamento apresentam várias funcionalidades recorrentes que as organizações devem conhecer.

Gerenciamento de incidentes

  • Identificação de incidentes: para resolver um incidente, primeiro é necessário observá-lo. As organizações automatizam cada vez mais os sistemas para detectar e enviar notificações quando ocorrem incidentes. Mas muitos também exigem que uma pessoa garanta que um incidente esteja ocorrendo, determine se ele requer intervenção e confirme a abordagem correta. Por exemplo, a falha de um servidor é um incidente comum em organizações com prioridade digital. Quando o servidor fica offline, uma ferramenta automatizada ou um funcionário pode identificar o incidente, iniciando o processo de gerenciamento de incidentes.
  • Geração de relatórios de incidentes: esse é o processo formal para catalogar um registro de incidente que uma máquina ou ser humano observou. Inclui o registro de incidentes, o processo pelo qual um indivíduo ou sistema atribui um entrevistado ao problema, categoriza o incidente e identifica a unidade de negócios e a data de resolução.
  • Priorização da resolução de incidentes: os serviços de software e TI são muitas vezes interdependentes nas organizações modernas, portanto, um incidente pode ter um efeito cascata em outros serviços. Às vezes, um incidente ocorre como parte de uma falha sistemática maior, e isso pode desencadear uma cadeia catastrófica de eventos. Por exemplo, se vários servidores falharem, a equipe de análise de dados de negócios pode não conseguir acessar os dados de que precisa, ou os trabalhadores do conhecimento da empresa podem não conseguir fazer login e acessar o software para seus trabalhos. Ou, se a API de uma empresa falhar, os clientes da organização podem não conseguir acessar as informações de que precisam para atender seus usuários finais. Em ambas as situações, a equipe de resposta deve avaliar todo o escopo do problema e priorizar quais incidentes resolver para minimizar os efeitos de curto e longo prazos na empresa. Eles podem priorizar com base em qual incidente tem o maior impacto na organização.
  • Resposta e contenção de incidentes: uma equipe de resposta (potencialmente auxiliada por software ou sistemas automatizados) se envolve na solução de problemas do incidente para minimizar as interrupções de negócios. A equipe de resposta geralmente é composta por membros internos da equipe de TI, prestadores de serviços externos e equipe de operações, conforme necessário.
  • Resolução de incidentes: é crítico para que as operações de TI retornem aos serviços normais. As possíveis soluções para um incidente de TI incluem colocar o servidor que está funcionando incorretamente, criar um patch, estabelecer uma solução alternativa ou alterar o hardware.
  • Documentação e comunicação de incidentes: é uma etapa crucial do ciclo de vida do incidente para ajudar a evitar incidentes futuros. Muitas empresas criam bases de conhecimento para seus relatórios de incidentes, onde os funcionários podem pesquisar para ajudá-los a resolver um incidente que pode ter ocorrido no passado. Além disso, os novos funcionários podem aprender sobre quais incidentes a empresa enfrentou recentemente e as soluções aplicadas, para que possam ajudar mais prontamente no próximo incidente. A documentação é crítica para determinar se um problema é recorrente e se está se tornando um problema, aumentando a necessidade de gerenciamento de problemas.

Gerenciamento de problemas

  • Avaliação do problema: a organização agora deve determinar se o incidente deve ser categorizado como um registro de problema ou se é apenas um incidente não relacionado. O primeiro significa que agora ele se torna parte do gerenciamento de problemas.
  • Registro de problemas e categorização: a equipe de TI deve agora registrar o problema identificado e rastrear cada ocorrência.
  • Análise da causa raiz: a organização deve estudar as questões subjacentes por trás desses problemas e desenvolver um roteiro para criar uma solução de longo prazo. Uma maneira de fazer isso é fazer perguntas recursivas do tipo "como" em cada etapa do processo até que seja possível identificar o problema original.
  • Solução de problemas: uma equipe de TI que entende o problema e sua causa raiz pode agora resolver o problema. Pode envolver uma resposta rápida ou demorada, dependendo da gravidade ou complexidade do problema.
  • Post-mortem: um post-mortem em que os funcionários relevantes discutem os incidentes, as causas raiz e a resposta ao problema é um componente crítico de qualquer organização transparente interessada em manter o tempo de atividade e oferecer um serviço excelente aos clientes. Os post-mortems oferecem a todos a oportunidade de discutir como melhorar sem julgar nenhum funcionário ou lançar a culpa por qualquer problema. O objetivo do post-mortem é descobrir o que aconteceu e definir ações para melhorar a organização. Isso também pode fornecer insights sobre como a equipe pode responder melhor a incidentes futuros. Ele pode identificar se uma organização precisa de gestão de mudanças para revitalizar e simplificar seu gerenciamento de incidentes e problemas. As melhores ideias e os melhores resultados vêm de reuniões post-mortem que são abertas e honestas. A cultura da equipe deve garantir a todos os membros que essa é uma maneira de descobrir como a equipe pode melhorar os serviços de TI e não uma maneira de encontrar alguém para culpar. As equipes entenderão rapidamente se este é um exercício honesto e solidário ou não.

Principais indicadores de desempenho do gerenciamento de incidentes e problemas

As organizações geralmente avaliam os gerentes de incidentes e o processo de gerenciamento de incidentes com base em vários indicadores-chave de desempenho (KPI):

  • Tempo médio para agir: um incidente requer detecção, resposta e reparo. As organizações avaliam a integridade de seu serviço de gerenciamento de incidentes pelo tempo médio para alertar ou reconhecer (MTTA), pelo tempo médio para responder e pelo tempo médio para reparo (MTTR), que fornecem uma imagem clara de como a organização pode responder a incidentes.
  • Tempo médio entre falhas (MTBF): o tempo entre incidentes para qualquer serviço de TI. Um MTBF que ocorre com mais frequência do que o esperado, pode significar problemas maiores que exigem uma postura mais proativa.
  • Tempo de atividade: o tempo em que seus serviços estão disponíveis e funcionando conforme o esperado. Pouco tempo de atividade pode colocar uma organização em risco de violar seu SLA com os usuários finais e perder negócios para os concorrentes.
  • Incidentes e problemas relatados: o número de incidentes que um gerente de incidentes relatou em um determinado período de tempo. O aumento de incidentes relatados pode ser sinal de um problema maior.

Benefícios do gerenciamento de incidentes e de problemas

Empresas com planos abrangentes de gerenciamento de problemas e incidentes podem responder rapidamente a incidentes e superar a concorrência. A seguir estão alguns benefícios:

  • Aumento da satisfação e da fidelidade do cliente: os clientes esperam que os serviços e produtos pelos quais pagam funcionem sempre que forem necessários. Cada vez mais produtos são softwares (ou conectados a softwares, como dispositivos inteligentes). Um servidor travando em uma empresa que fabrica campainhas inteligentes significa que as pessoas não podem entrar em suas casas ou apartamentos. Um site de reserva de hotel com um problema de erro de DNS perde receita naquele dia e pode perder um cliente de toda a vida para um concorrente. O impacto de incidentes e problemas pode prejudicar muito uma organização. As que responderem aos incidentes com mais rapidez e minimizarem o downtime conquistarão a fidelidade dos clientes, que provavelmente mudarão de fornecedor se estiverem insatisfeitos. Uma estratégia robusta de gerenciamento de incidentes economiza dinheiro para as empresas, diminuindo o downtime e a probabilidade de um cliente ou funcionário sair, ambos associados a custos elevados.
  • Aumento da satisfação dos funcionários: um incidente de TI grave afeta os funcionários tanto quanto os clientes. Os funcionários que não conseguem acessar o software de negócios crítico não conseguem realizar seu trabalho. O trabalho se acumula à medida que a empresa tenta colocar as coisas novamente online. É possível que eles precisem trabalhar horas extras ou durante o fim de semana para recuperar o atraso, criando estresse e ameaçando sua moral.
  • Atender aos requisitos de SLA: as organizações detalham as expectativas dos clientes sobre seus produtos e serviços em um SLA. A organização pode correr risco de ações legais se não cumprir os termos de serviço em seus SLAs, podendo perder clientes para concorrentes.

