Gestión de incidentes frente a gestión de problemas: ¿cuál es la diferencia?

Rascacielos de cristal moderno en el distrito central de negocios de Guangzhou

Todos los días, miles de millones de personas en todo el mundo utilizan sus computadoras o dispositivos móviles para acceder a Internet. Invariablemente, algunos de esos usuarios intentan acceder a un sitio web que tarda en cargarse o es propenso a fallar.

Una de las razones por las que el sitio web tuvo un rendimiento inferior es que demasiadas personas intentaban acceder al sitio al mismo tiempo, lo que saturaba los servidores. Sin embargo, también podría ser indicativo de una preocupación mayor, como una configuración incorrecta del DNS, una falla duradera del servidor o un ataque malicioso de un mal actor.

Los incidentes son errores o complicaciones en el servicio de TI que deben corregirse. Muchos de estos incidentes son desafíos temporales que requieren una solución específica, pero aquellos que apuntan a problemas subyacentes o más complicados que requieren un abordaje más integral se denominan problemas.

Esto explica la existencia de la gestión de incidentes y problemas, dos procesos importantes para el control de problemas y errores, el mantenimiento del tiempo de actividad y, en última instancia, la prestación de un gran servicio a los clientes y otros stakeholders.

Las organizaciones dependen cada vez más de las tecnologías digitales para atender a sus clientes y colaborar con los socios. La pila de tecnología de una organización puede crear nuevas y emocionantes oportunidades para hacer crecer su negocio. Pero un error en el servicio también puede crear interrupciones exponenciales y daños a su reputación y estado financiero.

¿Qué es la gestión de incidentes?

La gestión de incidentes es el proceso mediante el cual las organizaciones identifican, rastrean y resuelven los incidentes que podrían interrumpir los procesos comerciales normales. A menudo es un proceso reactivo en el que ocurre un incidente y la organización proporciona una respuesta ante el incidente lo más rápido posible.

Un aumento en las organizaciones que buscan la transformación digital y otras operaciones impulsadas por la tecnología hace que la gestión de incidentes sea aún más importante dada la dependencia de la tecnología para ofrecer soluciones a los clientes.

Los servicios de TI de las organizaciones se componen cada vez más de un complejo sistema de aplicaciones, software, hardware y otras tecnologías, todos los cuales pueden ser interdependientes. Los procesos individuales pueden colapsar, interrumpiendo el servicio que brindan a los clientes, costando dinero a la empresa y creando problemas de reputación. Las organizaciones han adoptado procedimientos de operaciones de desarrollo avanzadas (DevOps) para minimizar los incidentes, pero necesitan un proceso de resolución para cuando ocurran.

Todos los días, las organizaciones enfrentan y necesitan gestionar incidentes menores y mayores, todos los cuales tienen el potencial de interrumpir las funciones comerciales normales. Las organizaciones deben prestar atención a varios tipos de incidentes, incluidas interrupciones no planificadas como interrupciones del sistema, problemas de configuración de red, errores, incidentes de seguridad, pérdida de datos y más.

A medida que las pilas de tecnología han aumentado en complejidad, se vuelve aún más importante gestionar estratégicamente el proceso de gestión de incidentes. Para garantizar que todos en la organización sepan qué hacer si se encuentran con un incidente.

Los sistemas de gestión de incidentes han evolucionado a partir de herramientas contundentes en las que los empleados registraban los incidentes que observaban (que podían ocurrir horas después de ocurrir). A una práctica sólida y siempre activa con automatización y software de gestión de incidentes de autoservicio, que permite a cualquier persona de la organización informar un incidente al service desk.

Es importante resolver los incidentes de inmediato y evitar que vuelvan a ocurrir. Esto permite a las organizaciones mantener su acuerdo de nivel de servicio (SLA), que puede garantizar una cierta cantidad de tiempo de actividad o acceso a los servicios. No cumplir con un SLA podría poner a su organización en riesgo legal o de reputación.

El gestor de incidentes es el stakeholder clave del proceso de gestión de incidentes. Un administrador de incidentes es responsable de gestionar la respuesta a un incidente y comunicar el progreso a los stakeholders clave. Es un rol complejo de servicios de TI que requiere que el empleado se desempeñe en condiciones estresantes mientras se comunica con stakeholders con diferentes roles y prioridades en el negocio.

Qué es la gestión de problemas?

La gestión de problemas tiene como objetivo evitar que el incidente vuelva a ocurrir abordando la dirección de la causa principal. Sigue lógicamente la gestión de incidentes, especialmente si ese incidente ha ocurrido varias veces y probablemente debería diagnosticarse como un problema o error conocido.

La gestión de incidentes sin gestión de problemas solo aborda los síntomas y no la causa subyacente (es decir, la causa principal), lo que genera una probabilidad de que ocurran incidentes similares en el futuro. La gestión eficaz de problemas identifica una solución permanente a los problemas, reduciendo el número de incidentes que una organización tendrá que gestionar en el futuro.

Un equipo de gestión de problemas puede dedicarse a una gestión de problemas reactiva o proactiva, en función de los incidentes que observe y de los datos históricos de que disponga.

Diferencias entre la gestión de incidentes y la gestión de problemas

Hay una diferencia importante a considerar al observar incidentes versus problemas: objetivos a corto plazo versus objetivos a largo plazo.

La gestión de incidentes se preocupa más por intervenir en una instancia de problema con el objetivo declarado de volver a poner ese servicio en línea sin causar ningún problema adicional. Es una herramienta a corto plazo para mantener el servicio en funcionamiento en ese mismo momento.

La gestión de problemas se centra más en la respuesta a largo plazo, abordando cualquier posible causa subyacente como parte de un problema potencial más grande (es decir, un problema).

¿Cómo funcionan juntas la gestión de incidentes y la gestión de problemas?

Las organizaciones intentan mantener su infraestructura de TI en buen estado mediante el uso de la gestión de servicios de TI (ITSM) para gobernar la implementación, entrega y gestión de servicios que satisfacen las necesidades de los usuarios finales. ITSM tiene como objetivo minimizar el tiempo de inactividad no programado y garantizar que cada recurso de TI funcione según lo previsto para cada usuario final.

Los problemas surgen independientemente de cuánto esfuerzo pongan las organizaciones en su ITSM. La capacidad de una organización para dirigir y arreglos problemas imprevistos antes de que se conviertan en problemas mayores puede ser una gran ventaja competitiva. Un servicio de TI que falla una vez se considera un incidente.

Por ejemplo, demasiadas personas que intentan acceder a un servidor pueden provocar que se bloquee, creando un incidente que su organización debe arreglar. La gestión de incidentes se relaciona con solucionar ese problema en particular que afecta a sus usuarios de la manera más rápida y cuidadosa posible. En este caso, un administrador de incidentes puede contactar a los empleados de la organización y pedirles que salgan de los programas mientras la organización resuelve el problema.

La gestión de incidentes y la gestión de problemas se rigen por la Biblioteca de Tecnología de la Información (ITIL), un marco de orientación ampliamente adoptado para implementar y documentar ambos enfoques de gestión. ITIL crea la estructura para responder de forma reactiva a los incidentes a medida que ocurren. La versión más actualizada en el momento de escribir este artículo es ITIL 4.

Proporciona una biblioteca de mejores prácticas para gestionar activos de TI y mejorar el soporte de TI y los niveles de servicio. Los procesos de ITIL conectan los servicios de TI con las operaciones empresariales para que puedan cambiar cuando cambien los objetivos empresariales. 

Un componente clave de ITIL es la base de datos de gestión de la configuración (CMDB), que rastrea y gestiona la interdependencia de todo el software, los componentes de TI, los documentos, los usuarios y el hardware necesarios para prestar un servicio de TI. ITIL también crea una distinción entre la gestión de incidentes y la gestión de problemas.

Un servidor que falla constantemente puede representar un problema sistemático más grande, como una falla de hardware o una configuración incorrecta. Los bloqueos pueden continuar si el equipo de servicio de TI no logra descubrir la causa principal y asignar una solución al problema subyacente. En este caso, la respuesta puede requerir una escalada a la gestión de problemas, que se ocupa de solucionar incidentes repetidos.

La gestión de problemas proporciona un análisis de la causa principal del problema y una solución recomendada, que identifica los recursos necesarios para evitar que vuelva a ocurrir.

Componentes clave de la gestión de incidentes y problemas

La gestión eficaz de incidentes y problemas abarca un flujo de trabajo estructurado que requiere monitoreo en tiempo real, automatización y trabajadores dedicados que se coordinen para resolver los problemas lo más rápido posible para evitar tiempos de inactividad innecesarios o interrupciones del negocio. Ambas formas de gestión tienen varios componentes recurrentes que las organizaciones deben conocer.

Gestión de incidentes

  • Identificación de incidentes: para resolver un incidente, primero debe observarlo. Las organizaciones automatizan cada vez más los sistemas para detectar y enviar notificaciones cuando ocurren incidentes. Pero muchos también requieren que un humano se asegure de que se está produciendo un incidente, determine si requiere intervención y confirme el enfoque correcto. Por ejemplo, un bloqueo del servidor es un incidente común en las organizaciones Digital-first. Cuando el servidor se desconecta, una herramienta automatizada o un empleado pueden identificar el incidente, iniciando el proceso de gestión de incidentes.
  • Informe de incidentes: este es el proceso formal para catalogar un registro de incidentes que observó una máquina o un ser humano. Incluye el registro de incidentes, el proceso mediante el cual un individuo o sistema asigna un encuestado al problema, categoriza el incidente e identifica la unidad de negocio afectada y la fecha de resolución.
  • Priorización de la resolución de incidentes: el software y los servicios de TI suelen ser interdependientes en las organizaciones modernas, por lo que un incidente puede tener un efecto en cadena en otros servicios. A veces, un incidente ocurre como parte de una falla sistemática más grande, lo que puede desencadenar una cadena catastrófica de eventos. Por ejemplo, si varios servidores fallan, es posible que el equipo de analytics no pueda acceder a los datos que necesita, o que los trabajadores del conocimiento de la empresa no puedan iniciar sesión y acceder al software para sus trabajos. O, si la API de una empresa falla, es posible que los clientes de la organización no puedan acceder a la información que necesitan para atender a sus usuarios finales. En ambas situaciones, el equipo de respuesta debe evaluar todo el alcance del problema y priorizar qué incidentes resolver para minimizar los efectos a corto y largo plazo en el negocio. Pueden priorizar en función de qué incidente tiene el mayor impacto en la organización.
  • Respuesta y contención de incidentes: un equipo de respuesta, potencialmente asistido por software o sistemas automatizados, se involucra en la resolución de problemas del incidente para minimizar las interrupciones del negocio. El equipo de respuesta suele estar compuesto por miembros internos del equipo de TI, proveedores de servicios externos y personal de operaciones, según sea necesario.
  • Resolución de incidentes: Esto es crítico para que las Operaciones de TI vuelvan a los servicios normales. Las posibles resoluciones a un incidente de TI incluyen desconectar el servidor que funciona incorrectamente, crear un parche, establecer una solución alternativa o cambiar el hardware.
  • Documentación y comunicación de incidentes: este es un paso crucial del ciclo de vida del incidente para ayudar a evitar futuros incidentes. Muchas empresas crean bases de conocimiento para sus informes de incidentes donde los empleados pueden buscar ayuda para resolver un incidente que pudo haber ocurrido en el pasado. Además, los nuevos empleados pueden conocer los incidentes que la empresa ha enfrentado recientemente y las soluciones que se aplican, para que puedan ayudar más fácilmente con el próximo incidente. La documentación es crítica también para determinar si un problema es recurrente y se convierte en un problema, lo que aumenta la necesidad de gestión de problemas.

Gestión de problemas

  • Evaluación del problema: la organización ahora debe determinar si el incidente debe clasificarse como un registro de problema o si es solo un incidente no relacionado. Lo primero significa que ahora se convierte en parte de la gestión de problemas.
  • Registro y categorización de problemas: el equipo de TI ahora debe registrar el problema identificado y realizar un seguimiento de cada ocurrencia.
  • Análisis de la causa principal: la organización debe estudiar los problemas subyacentes detrás de estos problemas y desarrollar una hoja de ruta para crear una solución a largo plazo. Una forma de lograr esto es haciendo preguntas recursivas de "cómo" en cada paso del camino hasta que se pueda identificar el problema original.
  • Resolución de problemas: un equipo de TI que comprende el problema y su causa principal ahora puede resolverlo. Puede implicar una respuesta rápida o prolongada dependiendo de la gravedad o complejidad del problema.
  • Análisis a posteriori: un análisis a posteriori en el que los empleados pertinentes analizan los incidentes, las causas principales y la respuesta al problema es un componente crítico de cualquier organización transparente que esté interesada en mantener el tiempo de actividad y brindar a los clientes un servicio excelente. Las autopsias brindan a todos la oportunidad de analizar cómo mejorar sin juzgar a ningún empleado ni culpar por ningún problema. El propósito de la autopsia es averiguar qué sucedió y definir acciones para mejorar la organización. También puede proporcionar insights sobre cómo el equipo puede responder mejor a futuros incidentes. Puede identificar si una organización requiere gestión de cambios para revitalizar y optimizar su gestión de incidentes y problemas. Las mejores ideas y los mejores resultados provienen de reuniones posteriores a la muerte que son abiertas y honestas. La cultura del equipo debe asegurar a todos los miembros que esta es una forma de descubrir cómo el equipo puede mejorar los servicios de TI y no una forma de encontrar a alguien a quien culpar. Los equipos comprenderán rápidamente si se trata de un ejercicio honesto y de apoyo o no.

Indicadores clave de rendimiento de la gestión de incidentes y problemas

Las organizaciones suelen evaluar a los gestores de incidentes y el proceso de gestión de incidentes en función de varios indicadores clave de rendimiento (KPI):

  • Tiempo medio para tomar medidas: un incidente requiere detección, respuesta y reparación. Las organizaciones juzgan el estado de su servicio de gestión de incidentes por el tiempo medio de alerta o reconocimiento (MTTA) y el tiempo medio de respuesta y el tiempo medio de reparación (MTTR), los cuales proporcionan una imagen clara de cómo la organización puede responder a los incidentes.
  • Tiempo medio entre fallas (MTBF): el tiempo entre incidentes para cualquier servicio de TI. El MTBF, que ocurre con más frecuencia de lo esperado, podría significar problemas mayores que requieren una postura más proactiva.
  • Tiempo de actividad: el tiempo que sus servicios están disponibles y funcionan según lo previsto. Demasiado poco tiempo de actividad puede poner a una organización en riesgo de violar su SLA con los usuarios finales y, de lo contrario, perder negocios frente a la competencia.
  • Incidentes y problemas informados: el número de incidentes que un administrador de incidentes ha informado en un plazo determinado. El aumento de los incidentes informados puede ser un signo de un problema mayor.

Beneficios de la gestión de incidentes y la gestión de problemas

Las empresas con planes integrales de gestión de problemas e incidentes pueden responder rápidamente a los incidentes y superar a su competencia. Los siguientes son algunos beneficios:

  • Mayor satisfacción y lealtad del cliente: los clientes esperan que los servicios y productos por los que pagan funcionen cuando sea necesario. Cada vez más productos son software (o están conectados a software, como dispositivos inteligentes). Un servidor que falla en una empresa que fabrica timbres inteligentes significa que las personas no pueden ingresar a sus hogares o apartamentos. Un sitio web de reservas de hotel que tiene un problema de error de DNS pierde ingresos ese día y potencialmente pierde un cliente de por vida frente a un competidor. El impacto de los incidentes y problemas puede pesar mucho en una organización. Los que respondan a los incidentes más rápido y minimicen el tiempo de inactividad ganarán la lealtad de los clientes que probablemente cambiarán de proveedor si no están satisfechos. Una estrategia sólida de gestión de incidentes ahorra dinero a las empresas al disminuir el tiempo de inactividad y la probabilidad de que un cliente o empleado se vaya, los cuales están asociados con costos directos.
  • Mayor satisfacción de los empleados: un incidente informático grave afecta tanto a los empleados como a los clientes. Los empleados que no pueden acceder al software empresarial crítico no pueden hacer su trabajo. Su trabajo se acumula a medida que la empresa intenta volver a poner las cosas en línea. Es posible que deban trabajar horas extra o durante el fin de semana para ponerse al día, lo que crea estrés y amenaza su moral.
  • Cumplir con los requisitos de SLA: las organizaciones detallan las expectativas de los clientes para sus productos y servicios en un SLA. La organización podría estar en riesgo de acciones legales si no retiene los términos de servicio en sus SLA y potencialmente pierde clientes frente a la competencia.

Descubra cómo lograr operaciones de TI proactivas

IBM Turbonomic se integra con sus soluciones ITOps existentes, une equipos y datos aislados, y convierte los procesos manuales y reactivos en una optimización continua de los recursos de las aplicaciones, al tiempo que reduce de forma segura el consumo de la nube en un 33 %.

IBM® Cloud Pak for AIOps, la opción autohospedada para la gestión de incidentes, logra una gestión proactiva de incidentes y una corrección automatizada para reducir las interrupciones de atención al cliente hasta en un 50 % y el tiempo medio de recuperación (MTTR) hasta en un 50 %.

Suscríbase al boletín Think

Soluciones relacionadas
IBM Turbonomic

Escale automáticamente su infraestructura de TI actual para obtener un mayor rendimiento a menores costos.

Explorar IBM Turbonomic
Soluciones AIOps

Descubra cómo la IA para las operaciones de TI ofrece los insights que necesita para ayudar a impulsar un rendimiento empresarial excepcional.

Explore las soluciones de AIOps
Servicios de consultoría en automatización

Vaya más allá de la simple automatización de tareas para manejar procesos de alto perfil, orientados al cliente que generan ingresos con adopción y escala integradas.

Explorar los servicios de consultoría para la automatización
Dé el siguiente paso

Descubra cómo la IA para las operaciones de TI ofrece los insights para impulsar un rendimiento empresarial excepcional.

Explore Turbonomic Explore las soluciones de AIOps