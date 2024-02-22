¿Qué es la gestión de incidentes?

La gestión de incidentes es un proceso empleado por los equipos de operaciones de TI y DevOps para responder y abordar eventos no planeados que pueden afectar la calidad del servicio o las operaciones del servicio. La gestión de incidentes tiene como objetivo identificar y corregir problemas mientras se mantiene un servicio normal y se minimiza el impacto en el negocio.

Los incidentes pueden causar un serial de problemas para las organizaciones, desde tiempo de inactividad temporal hasta pérdida de datos. Cuando se hace bien, la gestión de incidentes puede proporcionar una forma eficiente y eficaz de arreglar todo tipo de incidentes con pocas interrupciones y dejar a las organizaciones más preparadas para futuros incidentes.

Con raíces en el service desk de TI, la gestión de incidentes sirvió durante mucho tiempo como la interfaz principal entre las operaciones de TI (ITOps) y el usuario final. A medida que la tecnología avanzó y se hizo más compleja, también lo hizo la forma en que las organizaciones ven la identificación de incidentes y la respuesta a los mismos. Esta práctica fue mucho más allá de ayudar a los usuarios a arreglar problemas y se convirtió en un proceso para mantener un tiempo de actividad constante de las aplicaciones y acelerar los esfuerzos de mejora continua.
Gestión de incidentes de TI

La gestión de incidentes dentro de las operaciones de TI de una empresa, a menudo denominada gestión de incidentes ITIL, aborda una amplia gama de problemas que pueden afectar al servicio y a las operaciones empresariales, desde el fallo de una computadora portátil o un error de impresora hasta problemas de conectividad wifi y tiempo de inactividad de la red.

La administración de incidentes, bajo el marco de ITSM (IT Service Management), funciona como un aspecto del modelo de servicio ITSM. En lugar de centrarse en la creación de sistemas y tecnología, la administración de incidentes para TI se centra más en el usuario. Su objetivo es mantener la infraestructura de TI funcionando correctamente, ya sea una aplicación o un endpoint, como un sensor o una computadora de escritorio.
Incidentes frente a solicitudes de servicio

Dentro de ITSM, el departamento de TI tiene varias funciones, incluyendo la de abordar los problemas a medida que surgen. La gravedad de estos problemas es lo que diferencia un incidente de una solicitud de servicio.

Una solicitud de servicio, en pocas palabras, es cuando un usuario pide que se le proporcione algo, como asesoramiento o equipamiento. Los servicios pueden incluir solicitar ayuda para restablecer una contraseña u obtener memoria adicional para una computadora de escritorio.

Un incidente, por otro lado, es más urgente e indica un error subyacente que debe abordarse.
Incidentes frente a problemas

Un incidente es un evento único no planeado que causa una interrupción en el servicio, mientras que un problema es la causa principal de una interrupción en el servicio, que puede ser un solo incidente o una serie de incidentes en cascada.

La diferencia radica en la corrección y en la forma en que el personal de respuesta aborda la resolución del problema. La respuesta a incidentes es reactiva. Los equipos de gestión de incidentes reciben una alarma y abordan el incidente. Sin embargo, al abordar un problema, los equipos informáticos identifican la causa principal y luego la arreglan. La gestión de problemas adopta un enfoque proactivo, examinando los distintos tipos de incidentes y los patrones que surgen para comprender cómo pueden prevenir futuros incidentes.

Aprenda más sobre la diferencia entre la gestión de incidentes y la gestión de problemas
Gestión de incidentes para DevOps

Los equipos de DevOps se centran en encontrar formas más eficientes de crear, probar y desplegar software, lo que, en parte, requiere abordar los incidentes con rapidez. Al igual que la gestión de incidentes de ITIL, la gestión de incidentes de DevOps tiene como objetivo arreglar los problemas sin interrumpir las operaciones. Por ejemplo, los equipos de DevOps pueden monitorear las métricas de tiempo medio entre fallos (MTBF), que pueden indicar que hay un problema subyacente que se debe investigar.

Debido a que DevOps se basa en la mejora continua, hay un enfoque significativo en el análisis post-mortem y una cultura de transparencia libre de culpas. El objetivo es optimizar el rendimiento general del sistema, optimizar y acelerar la resolución de incidentes y evitar que ocurran incidentes futuros.

Al igual que los equipos de TI actuales, los equipos de DevOps suelen emplear herramientas automatizadas de aprovisionamiento, priorización de incidentes y análisis de causas principales basadas en inteligencia artificial (IA) para garantizar el tiempo de actividad, abordar primero los incidentes más urgentes y aprender a arreglar problemas futuros con mayor rapidez. (O prevenirlos en primer lugar).
Proceso de gestión de incidentes

Las organizaciones suelen crear un proceso de gestión de incidentes que documenta la secuencia de eventos que debe tomar el equipo de respuesta. Todos los stakeholders deben saber qué personal es responsable de manejar los incidentes, el tiempo que debe llevar resolver el problema, cuándo escalar el incidente al siguiente nivel y cómo documentar el incidente y la forma en que se resolvió.

Una vez definido el proceso, el flujo de trabajo de gestión de incidentes suele ser el siguiente:
  1. Identificar el incidente: Ya sea que un usuario final envíe un ticket al help desk o un sistema de alerta automatizado que notifique al equipo sobre un problema, el equipo de respuesta necesita una forma de recibir reportes de problemas dentro del sistema.

  2. Registrar y clasificar el incidente: Esto incluye ingresar el reporte de incidentes en un sistema de registro de incidentes y asignar prioridades, incluyendo el nivel de personal que debe manejarlo. Por ejemplo, los incidentes de nivel 1 suelen ser manejados por personal más nuevo y con menos experiencia, mientras que los incidentes de nivel 2 y nivel 3 son cada vez más difíciles de resolver y requieren personal de respuesta más experimentado.

  3. Contener el problema: Si se trata de un incidente de seguridad, los equipos de respuesta deben actuar rápidamente para contener el problema, ya sea un ataque de denegación distribuida del servicio (DDoS) o una filtración de datos. En todos los casos, los equipos deben cerciorarse de que el incidente no se propague y afecte aún más el sistema.

  4. Diagnosticar el incidente: Aquí es donde entra en juego la resolución de problemas. Los equipos de respuesta pueden usar una base de conocimientos o una herramienta ChatOps para sugerir posibles causas y ahorrar tiempo.

  5. Resolver el incidente: Una vez que se ha identificado la causa, los equipos se ponen a trabajar para abordar el incidente, ya sea aprovisionando memoria adicional o abordando una interrupción de la red.

  6. Cerrar y revisar el incidente: Las revisiones post-mortem son un aspecto importante para mejorar la confiabilidad y la disponibilidad en los entornos digitales actuales. Estos datos no solo aumentan el conocimiento institucional de la organización, sino que también se pueden emplear en herramientas de machine learning y habilitadas para IA para ayudar a identificar incidentes más rápidamente e incluso crear notificaciones cuando es probable que ocurran incidentes. Las revisiones exhaustivas ayudan a las organizaciones a implementar procedimientos de corrección de incidentes más eficaces.
¿Por qué emplear la gestión de incidentes?

Todas las organizaciones necesitan arreglar problemas y resolver incidentes. Así es como mantienen el negocio en funcionamiento. Pero también hay beneficios claros al tener herramientas efectivas de resolución de incidentes—y equipos—que puedan reaccionar rápidamente sin mayores interrupciones para el negocio. Estos beneficios incluyen lo siguiente:
Resolución de problemas más rápida

Las herramientas de administración de incidentes, la automatización y AIOps ayudan a los equipos a identificar problemas y arreglarlos rápidamente. Esto, a su vez, mejora la eficiencia al permitir que los equipos se centren en las operaciones de la actividad principal en lugar de la constante extinción de incendios.
Mejor experiencia de usuario

Cuando los incidentes se solucionan correctamente (y más rápido) la primera vez, mejora la calidad del servicio para el usuario final. Esto comienza con un sistema claro y fácil de usar para informar las interrupciones del servicio y continúa con una buena comunicación a medida que se abordan los incidentes.
Mayor eficiencia operativa

La respuesta a incidentes crea un sistema en el que los problemas tienen un camino claro hacia la resolución y ayuda a desarrollar el conocimiento institucional a lo largo del tiempo. Este conocimiento—ya sea mantenido por el personal o integrado en un sistema automatizado impulsado por IA—ayuda a documentar métricas de rendimiento importantes, como el tiempo medio de resolución (MTTR). Estas métricas ayudan a asegurarse de que la organización mantenga un alto nivel de servicio y brinde una excelente experiencia del cliente.
Insights más profundos

Con un sistema eficaz de gestión de incidentes, los equipos pueden abordar los incidentes importantes con mayor rapidez y extraer insights para el análisis de la causa principal. Cuando los miembros del equipo documentan cómo se resolvieron incidentes anteriores, empiezan a crear un playbook con plantillas para resolver incidentes similares en el futuro.
Cumplimiento de SLA

Un acuerdo de nivel de servicio (SLA) define el nivel de servicio que una empresa debe proporcionar a un cliente. Por lo tanto, la respuesta y gestión de incidentes desempeñan un papel clave en el cumplimiento de las métricas y los indicadores clave de rendimiento (KPI) definidos en el SLA.
Herramientas de gestión de incidentes y automatización

La creciente complejidad de las operaciones de TI, impulsada en parte por las muchas aplicaciones en las que confían las organizaciones en las operaciones comerciales diarias, hizo que las herramientas de respuesta a incidentes y la automatización sean más importantes que nunca.

Algunas de las herramientas de gestión de incidentes más comunes incluyen:

  • Herramientas de monitoreo: Estas herramientas identifican interrupciones, activan alertas y diagnostican incidentes. Las herramientas de monitoreo también reducen los costos al liberar a los equipos de DevOps para gestionar mejor el ciclo de vida del software.

  • Service desks: Este es un lugar para que los usuarios envíen tickets, chateen con el equipo del service desk, monitoreen el progreso de sus tickets y realicen algunas tareas de autoservicio. Por lo general, el service desk se ejecuta a través de un sistema de gestión que permite realizar tareas clave de gestión de incidentes, como la priorización y la categorización.

  • Plataformas ALOps: Mediante el uso de registros y datos históricos, AIOps puede proporcionar contexto para una mejor toma de decisiones, una asignación de recursos más inteligente y una respuesta a incidentes más rápida.

  • VDocumentación: Se trata de scripts que documentan automáticamente los cambios en un entorno, lo que facilita el registro de incidentes para el análisis post-mortem. Por ejemplo, los equipos pueden configurar los scripts de PowerCLI para que se ejecuten en un horario mensual para registrar incidentes para un análisis más profundo.
