Todos los días, miles de millones de personas en todo el mundo utilizan sus computadoras o dispositivos móviles para acceder a Internet. Invariablemente, algunos de esos usuarios intentan acceder a un sitio web que tarda en cargarse o es propenso a fallar.
Una de las razones por las que el sitio web tuvo un rendimiento inferior es que demasiadas personas intentaban acceder al sitio al mismo tiempo, lo que saturaba los servidores. Sin embargo, también podría ser indicativo de una preocupación mayor, como una configuración incorrecta del DNS, una falla duradera del servidor o un ataque malicioso de un mal actor.
Los incidentes son errores o complicaciones en el servicio de TI que deben corregirse. Muchos de estos incidentes son desafíos temporales que requieren una solución específica, pero aquellos que apuntan a problemas subyacentes o más complicados que requieren un abordaje más integral se denominan problemas.
Esto explica la existencia de la gestión de incidentes y problemas, dos procesos importantes para el control de problemas y errores, el mantenimiento del tiempo de actividad y, en última instancia, la prestación de un gran servicio a los clientes y otros stakeholders.
Las organizaciones dependen cada vez más de las tecnologías digitales para atender a sus clientes y colaborar con los socios. La pila de tecnología de una organización puede crear nuevas y emocionantes oportunidades para hacer crecer su negocio. Pero un error en el servicio también puede crear interrupciones exponenciales y daños a su reputación y estado financiero.
La gestión de incidentes es el proceso mediante el cual las organizaciones identifican, rastrean y resuelven los incidentes que podrían interrumpir los procesos comerciales normales. A menudo es un proceso reactivo en el que ocurre un incidente y la organización proporciona una respuesta ante el incidente lo más rápido posible.
Un aumento en las organizaciones que buscan la transformación digital y otras operaciones impulsadas por la tecnología hace que la gestión de incidentes sea aún más importante dada la dependencia de la tecnología para ofrecer soluciones a los clientes.
Los servicios de TI de las organizaciones se componen cada vez más de un complejo sistema de aplicaciones, software, hardware y otras tecnologías, todos los cuales pueden ser interdependientes. Los procesos individuales pueden colapsar, interrumpiendo el servicio que brindan a los clientes, costando dinero a la empresa y creando problemas de reputación. Las organizaciones han adoptado procedimientos de operaciones de desarrollo avanzadas (DevOps) para minimizar los incidentes, pero necesitan un proceso de resolución para cuando ocurran.
Todos los días, las organizaciones enfrentan y necesitan gestionar incidentes menores y mayores, todos los cuales tienen el potencial de interrumpir las funciones comerciales normales. Las organizaciones deben prestar atención a varios tipos de incidentes, incluidas interrupciones no planificadas como interrupciones del sistema, problemas de configuración de red, errores, incidentes de seguridad, pérdida de datos y más.
A medida que las pilas de tecnología han aumentado en complejidad, se vuelve aún más importante gestionar estratégicamente el proceso de gestión de incidentes. Para garantizar que todos en la organización sepan qué hacer si se encuentran con un incidente.
Los sistemas de gestión de incidentes han evolucionado a partir de herramientas contundentes en las que los empleados registraban los incidentes que observaban (que podían ocurrir horas después de ocurrir). A una práctica sólida y siempre activa con automatización y software de gestión de incidentes de autoservicio, que permite a cualquier persona de la organización informar un incidente al service desk.
Es importante resolver los incidentes de inmediato y evitar que vuelvan a ocurrir. Esto permite a las organizaciones mantener su acuerdo de nivel de servicio (SLA), que puede garantizar una cierta cantidad de tiempo de actividad o acceso a los servicios. No cumplir con un SLA podría poner a su organización en riesgo legal o de reputación.
El gestor de incidentes es el stakeholder clave del proceso de gestión de incidentes. Un administrador de incidentes es responsable de gestionar la respuesta a un incidente y comunicar el progreso a los stakeholders clave. Es un rol complejo de servicios de TI que requiere que el empleado se desempeñe en condiciones estresantes mientras se comunica con stakeholders con diferentes roles y prioridades en el negocio.
La gestión de problemas tiene como objetivo evitar que el incidente vuelva a ocurrir abordando la dirección de la causa principal. Sigue lógicamente la gestión de incidentes, especialmente si ese incidente ha ocurrido varias veces y probablemente debería diagnosticarse como un problema o error conocido.
La gestión de incidentes sin gestión de problemas solo aborda los síntomas y no la causa subyacente (es decir, la causa principal), lo que genera una probabilidad de que ocurran incidentes similares en el futuro. La gestión eficaz de problemas identifica una solución permanente a los problemas, reduciendo el número de incidentes que una organización tendrá que gestionar en el futuro.
Un equipo de gestión de problemas puede dedicarse a una gestión de problemas reactiva o proactiva, en función de los incidentes que observe y de los datos históricos de que disponga.
Hay una diferencia importante a considerar al observar incidentes versus problemas: objetivos a corto plazo versus objetivos a largo plazo.
La gestión de incidentes se preocupa más por intervenir en una instancia de problema con el objetivo declarado de volver a poner ese servicio en línea sin causar ningún problema adicional. Es una herramienta a corto plazo para mantener el servicio en funcionamiento en ese mismo momento.
La gestión de problemas se centra más en la respuesta a largo plazo, abordando cualquier posible causa subyacente como parte de un problema potencial más grande (es decir, un problema).
Las organizaciones intentan mantener su infraestructura de TI en buen estado mediante el uso de la gestión de servicios de TI (ITSM) para gobernar la implementación, entrega y gestión de servicios que satisfacen las necesidades de los usuarios finales. ITSM tiene como objetivo minimizar el tiempo de inactividad no programado y garantizar que cada recurso de TI funcione según lo previsto para cada usuario final.
Los problemas surgen independientemente de cuánto esfuerzo pongan las organizaciones en su ITSM. La capacidad de una organización para dirigir y arreglos problemas imprevistos antes de que se conviertan en problemas mayores puede ser una gran ventaja competitiva. Un servicio de TI que falla una vez se considera un incidente.
Por ejemplo, demasiadas personas que intentan acceder a un servidor pueden provocar que se bloquee, creando un incidente que su organización debe arreglar. La gestión de incidentes se relaciona con solucionar ese problema en particular que afecta a sus usuarios de la manera más rápida y cuidadosa posible. En este caso, un administrador de incidentes puede contactar a los empleados de la organización y pedirles que salgan de los programas mientras la organización resuelve el problema.
La gestión de incidentes y la gestión de problemas se rigen por la Biblioteca de Tecnología de la Información (ITIL), un marco de orientación ampliamente adoptado para implementar y documentar ambos enfoques de gestión. ITIL crea la estructura para responder de forma reactiva a los incidentes a medida que ocurren. La versión más actualizada en el momento de escribir este artículo es ITIL 4.
Proporciona una biblioteca de mejores prácticas para gestionar activos de TI y mejorar el soporte de TI y los niveles de servicio. Los procesos de ITIL conectan los servicios de TI con las operaciones empresariales para que puedan cambiar cuando cambien los objetivos empresariales.
Un componente clave de ITIL es la base de datos de gestión de la configuración (CMDB), que rastrea y gestiona la interdependencia de todo el software, los componentes de TI, los documentos, los usuarios y el hardware necesarios para prestar un servicio de TI. ITIL también crea una distinción entre la gestión de incidentes y la gestión de problemas.
Un servidor que falla constantemente puede representar un problema sistemático más grande, como una falla de hardware o una configuración incorrecta. Los bloqueos pueden continuar si el equipo de servicio de TI no logra descubrir la causa principal y asignar una solución al problema subyacente. En este caso, la respuesta puede requerir una escalada a la gestión de problemas, que se ocupa de solucionar incidentes repetidos.
La gestión de problemas proporciona un análisis de la causa principal del problema y una solución recomendada, que identifica los recursos necesarios para evitar que vuelva a ocurrir.
La gestión eficaz de incidentes y problemas abarca un flujo de trabajo estructurado que requiere monitoreo en tiempo real, automatización y trabajadores dedicados que se coordinen para resolver los problemas lo más rápido posible para evitar tiempos de inactividad innecesarios o interrupciones del negocio. Ambas formas de gestión tienen varios componentes recurrentes que las organizaciones deben conocer.
Las organizaciones suelen evaluar a los gestores de incidentes y el proceso de gestión de incidentes en función de varios indicadores clave de rendimiento (KPI):
Las empresas con planes integrales de gestión de problemas e incidentes pueden responder rápidamente a los incidentes y superar a su competencia. Los siguientes son algunos beneficios:
IBM Turbonomic se integra con sus soluciones ITOps existentes, une equipos y datos aislados, y convierte los procesos manuales y reactivos en una optimización continua de los recursos de las aplicaciones, al tiempo que reduce de forma segura el consumo de la nube en un 33 %.
IBM® Cloud Pak for AIOps, la opción autohospedada para la gestión de incidentes, logra una gestión proactiva de incidentes y una corrección automatizada para reducir las interrupciones de atención al cliente hasta en un 50 % y el tiempo medio de recuperación (MTTR) hasta en un 50 %.
Suscríbase al boletín Think
Escale automáticamente su infraestructura de TI actual para obtener un mayor rendimiento a menores costos.
Descubra cómo la IA para las operaciones de TI ofrece los insights que necesita para ayudar a impulsar un rendimiento empresarial excepcional.
Vaya más allá de la simple automatización de tareas para manejar procesos de alto perfil, orientados al cliente que generan ingresos con adopción y escala integradas.