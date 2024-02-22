La gestión de incidentes es un proceso empleado por los equipos de operaciones de TI y DevOps para responder y abordar eventos no planeados que pueden afectar la calidad del servicio o las operaciones del servicio. La gestión de incidentes tiene como objetivo identificar y corregir problemas mientras se mantiene un servicio normal y se minimiza el impacto en el negocio.
Los incidentes pueden causar un serial de problemas para las organizaciones, desde tiempo de inactividad temporal hasta pérdida de datos. Cuando se hace bien, la gestión de incidentes puede proporcionar una forma eficiente y eficaz de arreglar todo tipo de incidentes con pocas interrupciones y dejar a las organizaciones más preparadas para futuros incidentes.
Con raíces en el service desk de TI, la gestión de incidentes sirvió durante mucho tiempo como la interfaz principal entre las operaciones de TI (ITOps) y el usuario final. A medida que la tecnología avanzó y se hizo más compleja, también lo hizo la forma en que las organizaciones ven la identificación de incidentes y la respuesta a los mismos. Esta práctica fue mucho más allá de ayudar a los usuarios a arreglar problemas y se convirtió en un proceso para mantener un tiempo de actividad constante de las aplicaciones y acelerar los esfuerzos de mejora continua.
La gestión de incidentes dentro de las operaciones de TI de una empresa, a menudo denominada gestión de incidentes ITIL, aborda una amplia gama de problemas que pueden afectar al servicio y a las operaciones empresariales, desde el fallo de una computadora portátil o un error de impresora hasta problemas de conectividad wifi y tiempo de inactividad de la red.
La administración de incidentes, bajo el marco de ITSM (IT Service Management), funciona como un aspecto del modelo de servicio ITSM. En lugar de centrarse en la creación de sistemas y tecnología, la administración de incidentes para TI se centra más en el usuario. Su objetivo es mantener la infraestructura de TI funcionando correctamente, ya sea una aplicación o un endpoint, como un sensor o una computadora de escritorio.
Dentro de ITSM, el departamento de TI tiene varias funciones, incluyendo la de abordar los problemas a medida que surgen. La gravedad de estos problemas es lo que diferencia un incidente de una solicitud de servicio.
Una solicitud de servicio, en pocas palabras, es cuando un usuario pide que se le proporcione algo, como asesoramiento o equipamiento. Los servicios pueden incluir solicitar ayuda para restablecer una contraseña u obtener memoria adicional para una computadora de escritorio.
Un incidente, por otro lado, es más urgente e indica un error subyacente que debe abordarse.
Un incidente es un evento único no planeado que causa una interrupción en el servicio, mientras que un problema es la causa principal de una interrupción en el servicio, que puede ser un solo incidente o una serie de incidentes en cascada.
La diferencia radica en la corrección y en la forma en que el personal de respuesta aborda la resolución del problema. La respuesta a incidentes es reactiva. Los equipos de gestión de incidentes reciben una alarma y abordan el incidente. Sin embargo, al abordar un problema, los equipos informáticos identifican la causa principal y luego la arreglan. La gestión de problemas adopta un enfoque proactivo, examinando los distintos tipos de incidentes y los patrones que surgen para comprender cómo pueden prevenir futuros incidentes.
Los equipos de DevOps se centran en encontrar formas más eficientes de crear, probar y desplegar software, lo que, en parte, requiere abordar los incidentes con rapidez. Al igual que la gestión de incidentes de ITIL, la gestión de incidentes de DevOps tiene como objetivo arreglar los problemas sin interrumpir las operaciones. Por ejemplo, los equipos de DevOps pueden monitorear las métricas de tiempo medio entre fallos (MTBF), que pueden indicar que hay un problema subyacente que se debe investigar.
Debido a que DevOps se basa en la mejora continua, hay un enfoque significativo en el análisis post-mortem y una cultura de transparencia libre de culpas. El objetivo es optimizar el rendimiento general del sistema, optimizar y acelerar la resolución de incidentes y evitar que ocurran incidentes futuros.
Al igual que los equipos de TI actuales, los equipos de DevOps suelen emplear herramientas automatizadas de aprovisionamiento, priorización de incidentes y análisis de causas principales basadas en inteligencia artificial (IA) para garantizar el tiempo de actividad, abordar primero los incidentes más urgentes y aprender a arreglar problemas futuros con mayor rapidez. (O prevenirlos en primer lugar).
Las organizaciones suelen crear un proceso de gestión de incidentes que documenta la secuencia de eventos que debe tomar el equipo de respuesta. Todos los stakeholders deben saber qué personal es responsable de manejar los incidentes, el tiempo que debe llevar resolver el problema, cuándo escalar el incidente al siguiente nivel y cómo documentar el incidente y la forma en que se resolvió.
Una vez definido el proceso, el flujo de trabajo de gestión de incidentes suele ser el siguiente:
Todas las organizaciones necesitan arreglar problemas y resolver incidentes. Así es como mantienen el negocio en funcionamiento. Pero también hay beneficios claros al tener herramientas efectivas de resolución de incidentes—y equipos—que puedan reaccionar rápidamente sin mayores interrupciones para el negocio. Estos beneficios incluyen lo siguiente:
Las herramientas de administración de incidentes, la automatización y AIOps ayudan a los equipos a identificar problemas y arreglarlos rápidamente. Esto, a su vez, mejora la eficiencia al permitir que los equipos se centren en las operaciones de la actividad principal en lugar de la constante extinción de incendios.
Cuando los incidentes se solucionan correctamente (y más rápido) la primera vez, mejora la calidad del servicio para el usuario final. Esto comienza con un sistema claro y fácil de usar para informar las interrupciones del servicio y continúa con una buena comunicación a medida que se abordan los incidentes.
La respuesta a incidentes crea un sistema en el que los problemas tienen un camino claro hacia la resolución y ayuda a desarrollar el conocimiento institucional a lo largo del tiempo. Este conocimiento—ya sea mantenido por el personal o integrado en un sistema automatizado impulsado por IA—ayuda a documentar métricas de rendimiento importantes, como el tiempo medio de resolución (MTTR). Estas métricas ayudan a asegurarse de que la organización mantenga un alto nivel de servicio y brinde una excelente experiencia del cliente.
Con un sistema eficaz de gestión de incidentes, los equipos pueden abordar los incidentes importantes con mayor rapidez y extraer insights para el análisis de la causa principal. Cuando los miembros del equipo documentan cómo se resolvieron incidentes anteriores, empiezan a crear un playbook con plantillas para resolver incidentes similares en el futuro.
Un acuerdo de nivel de servicio (SLA) define el nivel de servicio que una empresa debe proporcionar a un cliente. Por lo tanto, la respuesta y gestión de incidentes desempeñan un papel clave en el cumplimiento de las métricas y los indicadores clave de rendimiento (KPI) definidos en el SLA.
La creciente complejidad de las operaciones de TI, impulsada en parte por las muchas aplicaciones en las que confían las organizaciones en las operaciones comerciales diarias, hizo que las herramientas de respuesta a incidentes y la automatización sean más importantes que nunca.
Algunas de las herramientas de gestión de incidentes más comunes incluyen:
