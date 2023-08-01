Todos os dias, bilhões de pessoas em todo o mundo usam seus computadores ou dispositivos móveis para acessar a internet. Invariavelmente, alguns desses usuários tentam acessar um site que é lento para carregar ou propenso a falhas.
Uma das razões para o baixo desempenho do site é que muitas pessoas estavam tentando acessar o site ao mesmo tempo, sobrecarregando os servidores. No entanto, isso também pode ser indicativo de uma preocupação maior, incluindo configuração incorreta de DNS, uma falha duradoura do servidor ou um ataque malicioso de um agente mal-intencionado.
Incidentes são erros ou complicações no serviço de TI que precisam ser corrigidos. Muitos desses incidentes são desafios temporários que requerem uma solução específica, mas aqueles que apontam para questões subjacentes ou mais complicadas que requerem lidar com mais abrangente são chamados de problemas.
Isso explica a existência do gerenciamento de incidentes e problemas, dois processos importantes para controle de problemas e erros, manutenção do tempo de atividade e, por fim, entrega de um ótimo serviço aos clientes e outros stakeholders.
As organizações dependem cada vez mais de tecnologias digitais para atender seus clientes e colaborar com parceiros. O stack de tecnologia de uma organização pode criar oportunidades novas e empolgantes para expandir os negócios. Mas um erro no serviço também pode criar interrupções exponenciais e danos à sua reputação e integridade financeira.
O gerenciamento de incidentes é como as organizações identificam, rastreiam e resolvem incidentes que podem interromper os processos de negócios nrmais. Muitas vezes, é um processo reativo em que ocorre um incidente e a organização fornece uma resposta a incidentes o mais rápido possível.
O aumento de organizações que buscam a transformação digital e outras operações baseadas na tecnologia torna o gerenciamento de incidentes ainda mais importante, dada a dependência da tecnologia para apresentar soluções aos clientes.
Os serviços de TI das organizações são cada vez mais compostos por um sistema complexo de aplicações, software, hardware e outras tecnologias, que podem ser interdependentes. Processos individuais podem falhar, interrompendo o serviço que prestam aos clientes, custando dinheiro à empresa e criando problemas de reputação. As organizações adotaram procedimentos de operações de desenvolvimento avançadas (DevOps) para minimizar incidentes, mas precisam de um processo de resolução para quando ocorrerem.
Todos os dias, as organizações encontram e precisam gerenciar incidentes menores e maiores, todos os quais têm o potencial de interromper as funções normais de negócios. As organizações precisam prestar atenção a vários tipos de incidentes, incluindo interrupções não planejadas, como interrupções do sistema, problemas de configuração de rede, bugs, incidentes de segurança, perda de dados e muito mais.
Com o aumento da complexidade das stacks de tecnologia, torna-se ainda mais importante gerenciar estrategicamente o processo de gerenciamento de incidentes. Para garantir que todos na organização saibam o que fazer se encontrarem um incidente.
Os sistemas de gerenciamento de incidentes evoluíram de ferramentas simples em que os funcionários registravam os incidentes que observaram (que poderiam ocorrer horas após a ocorrência). Para uma prática robusta e sempre ativa com automação e software de gerenciamento de incidentes de autoatendimento, permitindo que qualquer pessoa na organização relate um incidente para a central de atendimento.
É importante resolver os incidentes imediatamente e evitar que aconteçam novamente. Isso permite que as organizações cumpram seu contrato de nível de serviço (SLA), o que pode garantir uma certa quantidade de tempo de atividade ou acesso aos serviços. O não cumprimento de um SLA pode colocar sua organização em risco legal ou de reputação.
O gerente de incidentes é a principal stakeholder do processo de gerenciamento de incidentes. Um gerente de incidentes é responsável por gerenciar a resposta a um incidente e comunicar o progresso aos stakeholders. É uma função complexa de serviços de TI que exige que o funcionário atue sob condições estressantes enquanto se comunica com stakeholders com diferentes funções e prioridades na empresa.
O objetivo do gerenciamento de problemas é evitar a recorrência do incidente, lidando com a causa raiz. Ele segue logicamente o gerenciamento de incidentes, especialmente se esse incidente tiver ocorrido várias vezes e provavelmente deve ser diagnosticado como um problema ou erro conhecido.
O gerenciamento de incidentes sem gerenciamento de problemas lida com os sintomas e não com a causa raiz, levando a uma probabilidade de que incidentes semelhantes ocorram no futuro. O gerenciamento eficaz de problemas identifica uma solução permanente para os problemas, diminuindo o número de incidentes que uma organização terá que gerenciar no futuro.
Uma equipe de gerenciamento de problemas pode se envolver em um gerenciamento de problemas reativo ou proativo, dependendo de quais incidentes ela observa e quais dados históricos ela tem.
Há uma grande diferença a considerar ao observar incidentes versus problemas: metas de curto prazo versus metas de longo prazo.
O gerenciamento de incidentes está mais preocupado em intervir em uma instância de problema com o objetivo declarado de colocar esse serviço novamente online sem causar problemas adicionais. É uma ferramenta de curto prazo para manter o serviço em execução naquele exato momento.
O gerenciamento de problemas se concentra mais na resposta de longo prazo, lidando com qualquer possível causa subjacente como parte de uma questão maior (ou seja, um problema).
As organizações tentam manter sua infraestrutura de TI em boa posição usando o gerenciamento de serviços de TI (ITSM) para governa a implementação, a entrega e o gerenciamento de serviços que atendem às necessidades dos usuários finais. O ITSM visa minimizar o downtime não programado e garantir que todos os recursos de TI funcionem conforme o esperado para cada usuário final.
Os problemas surgem independentemente de quanto esforço as organizações dedicam ao ITSM. A capacidade de uma organização de lidar com e fazer correções de problemas imprevistos antes que eles se transformem em problemas maiores pode ser uma enorme vantagem competitiva. A falha de um serviço de TI uma vez é considerada um incidente.
Por exemplo, muitas pessoas tentando acessar um servidor podem causar falhas, criando um incidente que a organização precisa corrigir. O gerenciamento de incidentes está relacionado à resolução daquele problema específico que afeta seus usuários da forma mais rápida e cuidadosa possível. Nesse caso, um gerente de incidentes pode entrar em contato com os funcionários da organização e pedir que eles saiam dos programas enquanto a organização resolve o problema.
O gerenciamento de incidentes e o gerenciamento de problemas são regidos pelo Information Technology Infrastructure Library (ITIL), um framework de orientação amplamente adotada para implementar e documentar ambas as abordagens de gerenciamento. O ITIL cria a estrutura para responder reativamente aos incidentes à medida que eles ocorrem. A versão mais atualizada no momento da elaboração é o ITIL 4.
Ele fornece uma biblioteca de melhores práticas para gerenciar ativos de TI e melhorar o suporte e os níveis de serviço de TI. Os processos ITIL conectam os serviços de TI às operações de negócios para que eles possam mudar quando os objetivos de negócios mudam.
Um componente essencial do ITIL é o banco de dados de gerenciamento de configuração (CMDB), que rastreia e gerencia a interdependência de todo o software, componentes de TI, documentos, usuários e hardware necessários para fornecer um serviço de TI. O ITIL também cria uma distinção entre gerenciamento de incidentes e gerenciamento de problemas.
Um servidor que trava constantemente pode representar um problema sistemático maior, como falha de hardware ou configuração incorreta. As falhas podem continuar se a equipe de serviços de TI não conseguir descobrir a causa raiz e mapear uma solução para o problema subjacente. Nesse caso, a resposta pode exigir uma escalada para o gerenciamento de problemas, que se preocupa com a correção de incidentes repetidos.
O gerenciamento de problemas oferece uma análise da causa raiz do problema e uma solução recomendada, que identifica os recursos necessários para evitar que ele aconteça novamente.
O gerenciamento eficaz de incidentes e problemas engloba um fluxo de trabalho estruturado que requer monitoramento em tempo real, automação e trabalhadores dedicados coordenando para resolver problemas o mais rápido possível para evitar downtime desnecessário ou interrupções de negócios. Ambas as formas de gerenciamento apresentam várias funcionalidades recorrentes que as organizações devem conhecer.
As organizações geralmente avaliam os gerentes de incidentes e o processo de gerenciamento de incidentes com base em vários indicadores-chave de desempenho (KPI):
Empresas com planos abrangentes de gerenciamento de problemas e incidentes podem responder rapidamente a incidentes e superar a concorrência. A seguir estão alguns benefícios:
