Dentro de una empresa, cada incidente significa una interrupción. Algunos incidentes afectan a una sola persona, pero otros interrumpen la actividad de áreas funcionales enteras. ¿Qué es un incident manager? El trabajo de un incident manager (en español, gestor de incidentes o incidencias) es responder a los incidentes cuando estos se producen y tomar las medidas necesarias para restablecer el servicio y devolver la normalidad a la empresa lo antes posible. Los gestores de incidentes son los miembros del personal de TI con los que interactúan los empleados, proveedores y clientes cuando están en dificultades y necesitan ayuda. Para interactuar con los usuarios y atender sus necesidades, los gestores de incidentes deben poseer conocimientos técnicos, formación en atención al cliente y acceso a herramientas e información.

¿Qué lugar ocupan los gestores de incidentes en una organización de TI?

 

La gestión de incidentes (en inglés, incident management) es una categoría laboral genérica que incluye muchos puestos, desde agentes generalistas de centros de atención telefónica hasta personal de ingeniería con profundos conocimientos técnicos. Muchas empresas tratan de centralizar la gestión de incidentes en un área de gestión de servicios de TI (IT Service Management, ITSM), pero no es raro encontrar empleados que desempeñan funciones de gestión de incidentes en otras áreas. Las funciones más comunes de los incident managers se encuentran en los service desks de TI, los centros de llamadas, los centros de operaciones, los equipos de asistencia especializados y las áreas de asistencia en el campo. Cada una de estas áreas es responsable de prestar apoyo a los sistemas informáticos, lo que incluye la respuesta a los incidentes que eventualmente se produzcan. Otras funciones menos conocidas en las que operan los incident managers se relacionan con la seguridad de la información, la gestión de datos, la gobernanza y el cumplimiento, y los equipos de desarrollo de soluciones. En estas áreas, los incident managers se centran en tipos especializados de incidentes y, a menudo, tienen protocolos únicos para responder a ellos.

La gestión de incidentes es el punto de partida de muchas carreras de informática

Para muchos profesionales de TI que se acaban de graduar en la universidad o están dando sus primeros pasos en el mundo laboral, los puestos de gestor de incidentes representan un comienzo ideal para su carrera. Los procesos estructurados de este puesto, combinados con los recursos de conocimiento y la formación, proporcionan un entorno en el que los nuevos profesionales de TI pueden desarrollar sus habilidades y ganar experiencia al tiempo que realizan una contribución positiva a sus empresas. Muchos profesionales que comienzan su carrera en la gestión de incidentes pasan a ocupar puestos en el desarrollo de soluciones, operaciones y especialidades, como la seguridad y la gestión de riesgos.

Los gestores de incidentes interactúan con una gran variedad de usuarios y sistemas, lo que les da la oportunidad de conocer la empresa, su funcionamiento y las tareas y responsabilidades específicas de los equipos de TI y comerciales. Los gestores de incidentes que permanecen en el puesto durante muchos años suelen adquirir una perspectiva muy amplia de las operaciones de la empresa e, incluso, obtienen un mayor conocimiento general de la misma que el que tienen los ejecutivos de alto nivel. La experiencia que adquieren los empleados en un puesto de gestor de incidentes logra que algunos de ellos se conviertan en los empleados de TI más valiosos de una empresa.

Los nuevos profesionales de las tecnologías de la información suelen empezar su carrera laboral con un conocimiento general de los distintos tipos de tecnología (quizá un lenguaje de programación, algunos conocimientos de hardware o ciertas habilidades de soporte técnico), pero pueden carecer de la experiencia necesaria para comprender a fondo la importancia de la tecnología en los negocios y cómo aplicar sus conocimientos técnicos a sistemas informáticos reales. Ser incident manager ofrece a los profesionales de TI la oportunidad de perfeccionar sus conocimientos técnicos, aplicándolos a la resolución de problemas informáticos del mundo real y desarrollando la confianza necesaria para abordar proyectos técnicos más complejos. En el ámbito de las TI, para resolver incidentes se requieren habilidades de diagnóstico y resolución de problemas, así como comprender el funcionamiento de los sistemas de TI y cómo interactúan entre sí y con los usuarios que dependen de ellos. La experiencia adquirida como incident manager es vital para que un empleado desarrolle los cimientos de una carrera productiva en el sector de las TI.

¿Qué hace un incident manager?

El motor de las tareas diarias de los incident managers suelen ser los tickets de soporte, las solicitudes de servicio enviadas por los usuarios finales o los problemas identificados a través de la monitorización de los sistemas y los servicios. La mayoría de las empresas cuentan con un software ITSM de gestión de tickets que agrupa los tickets de soporte en listas de espera y facilita la asignación de tareas a los distintos gestores de incidentes. A lo largo de su jornada laboral, un gestor de incidentes puede recibir hasta 20 tickets de soporte (en distintas etapas de su ciclo de vida). Incluso con lo que parece una gran acumulación de tickets, la mayoría de los incident managers solo se centrarán activamente en hasta 3 incidentes simultáneos.

El objetivo de la gestión de incidentes es minimizar el impacto de los incidentes en los usuarios del sistema/servicio de TI y en las operaciones del negocio. El incident manager logra este objetivo realizando una serie de tareas, algunas centradas en la comprensión del problema, otras en su resolución y otras en la minimización de futuros inconvenientes.

Triage

Este es el primer paso que realiza un incident manager cuando se encuentra con un nuevo incidente. Consiste en tratar de comprender los síntomas notificados y el alcance de la interrupción, y determinar el nivel de urgencia que debe aplicarse a la resolución del problema. Este triage inicial determina la prioridad/criticidad del ticket, establece las expectativas del acuerdo de nivel de servicios (Service License Agreement, SLA) para el tiempo de respuesta/resolución y determina qué procesos y recursos se aprovecharán para resolver el problema.

Evaluación del impacto

Los incidentes varían significativamente en cuanto a su impacto sobre los usuarios y las operaciones de una empresa. La mayoría de los incidentes tendrán un impacto relativamente bajo, interrumpiendo las actividades de uno o pocos usuarios, y existirán algunas alternativas para permitir que las actividades de la empresa continúen (incluso si la productividad se ve algo afectada). Otros incidentes tienen un impacto mucho mayor, como una interrupción crítica del sistema, una violación de la seguridad o el fallo de los flujos de trabajo automatizados. Estos incidentes más críticos pueden afectar áreas e instalaciones enteras y, así, mermar la capacidad de la empresa para atender a sus clientes o incluso poner en peligro la reputación de la organización. El incident manager es responsable de realizar una evaluación inicial del impacto y de reevaluarlo periódicamente a medida que evoluciona el incidente.

Diagnóstico y recopilación de datos

Para que el gestor de incidentes pueda resolver un problema, primero debe comprender lo que está ocurriendo, tanto desde el punto de vista técnico como en el entorno operativo del sistema que presenta el problema. Cuando se crea un incidente (se abre un ticket), es habitual que la descripción inicial sea incompleta y apenas describa los síntomas del problema. Raramente un ticket expone claramente el problema, al menos desde el principio. El incident manager debe realizar una serie de pruebas de diagnóstico, hablar con los usuarios y recopilar datos sobre el incidente para comprender cabalmente lo que está ocurriendo. Para resolver el incidente, estos datos se compararán con los problemas conocidos, las guías de soluciones y la experiencia personal del gestor de incidentes.

Solución de problemas y correcciones

Es la parte más reconocible del trabajo de un incident manager. Una vez que identificó el problema técnico y recopiló algunos datos, se encargará de identificar la causa del problema y encontrar la forma de solucionarlo. Es importante tener en cuenta que el objetivo principal del gestor de incidentes es minimizar el impacto y restaurar el servicio rápidamente. Por ello, es posible que reinicie los servicios, reinicie el hardware o sugiera la reinstalación del software para solucionar el problema. Se tratan de pasos habituales de solución, diseñados para resolver el incidente incluso sin que haya una comprensión clara y completa de lo que causó el problema.

Interacción con los usuarios

Los gestores de incidentes no solo se encargan de trabajar en los sistemas técnicos; también son responsables de interactuar con los usuarios que abren tickets de soporte técnico. Esta interacción se produce a lo largo de todo el ciclo de vida del incidente, desde la evaluación inicial del impacto y la recopilación de datos, pasando por la solución del problema y su corrección (actualizando al usuario sobre el estado del ticket), hasta el seguimiento luego del cierre del incidente para garantizar que el problema se ha resuelto por completo. Los incident managers deben tener una gran habilidad de comunicación, así como la capacidad de mostrar empatía con los usuarios y obtener de ellos la información que pueda ayudar al diagnóstico.

Recopilación de datos

Si bien la principal responsabilidad de los gestores es reducir el impacto del incidente y solucionarlo rápidamente, también son fundamentales para recopilar datos que ayudan a comprender la causa raíz de los problemas, de modo que puedan implementarse soluciones permanentes. Mientras se aborda activamente un incidente, los gestores pueden acceder a una amplia variedad de datos del sistema y del entorno, los cuales pueden no estar disponibles una vez que el incidente se ha resuelto. Por esta razón, los incident managers suelen dedicar algún tiempo a recopilar información antes de encarar acciones como reinicios y reinstalaciones, ya que la necesitan para realizar un análisis más detallado de la causa raíz.

Creación de una base de conocimientos

La gestión del conocimiento es una parte importante del proceso de gestión de incidentes. Los gestores de incidentes utilizan los artículos de conocimiento y las bases de datos de problemas conocidos para comparar los incidentes actuales con situaciones que se vivieron en el pasado. Además, los incident managers contribuyen considerablemente a la gestión de conocimientos actualizando la base de conocimientos a partir de problemas anteriores, creando nuevos artículos para situaciones futuras.

Herramientas que utilizan los incident managers

En la mayoría de las organizaciones de TI, la gestión de incidentes es una actividad remota, en la que los gestores de incidentes se encuentran en oficinas aisladas de los usuarios y sistemas en los que trabajan. Si bien es cierto que hay algunos gestores de incidentes que realizan servicio de campo, esto no es necesario, ya que la mayoría de los incidentes pueden resolverse de forma remota. Esto es posible gracias a la amplia gama de herramientas informáticas de las que disponen los gestores de incidentes. Algunas de las herramientas más comunes son las siguientes:

En la mayoría de las empresas, una plataforma ITSM consolidada proporciona muchas de estas funcionalidades, lo que permite que los gestores de incidentes (y otros profesionales) accedan desde una única interfaz a toda la información y herramientas que necesitan para realizar su trabajo. Durante los últimos años, este concepto de “panel único” aumentó considerablemente la productividad de las distintas áreas de ITSM (incluida la gestión de incidentes).

Habilidades de un incident manager

Las habilidades y el nivel de experiencia de su personal de gestión de incidentes pueden variar enormemente: desde recientes graduados universitarios con poca experiencia en el sector hasta expertos en la materia con décadas de experiencia técnica y en gestión de incidentes. A la hora de contratar a un gestor de incidentes, es importante conocer los puntos fuertes y débiles de su personal actual y buscar candidatos que se complementen con el perfil de su equipo. Las empresas suelen considerar estos 5 rasgos a la hora de evaluar sus necesidades de gestión de incidentes y el peso de un candidato:

Además de estos aspectos específicos, los gestores de incidentes deben trabajar en entornos de gran tensión, con múltiples prioridades y un fuerte sentido de la urgencia. Deben tener una curiosidad innata por entender cómo funcionan los sistemas y una mentalidad abierta a aprender cosas nuevas. Los gestores de incidentes pueden tener orígenes muy diversos y el puesto es ideal para candidatos que tengan una motivación alta.

Medir el rendimiento de un incident manager

Los gestores de incidentes deben mantener un equilibrio entre la satisfacción del cliente, la resolución puntual de los incidentes y la relación entre productividad y costo. Es fácil que un gestor de incidentes destaque en uno o dos de estos aspectos, pero equilibrar los tres es un arte. Las métricas utilizadas para evaluar el rendimiento de los gestores de incidentes son importantes para ayudarles a comprender las expectativas que tiene la empresa respecto a su función y sus responsabilidades y a orientar sus actividades hacia el nivel de rendimiento que la empresa considera más importante. A continuación se encuentran algunas de las métricas más utilizadas para evaluar el rendimiento de los gestores de incidentes.

Cumplimiento de los SLA

La principal métrica que utilizan las empresas para evaluar el rendimiento de la gestión de incidentes son los SLA de tiempo de respuesta y resolución. Los acuerdos de nivel de servicio tratan de medir si el servicio de soporte técnico de TI (y, en particular, el incident manager) ha cumplido con los compromisos asumidos con el usuario. Hay que tener en cuenta que el departamento de TI establece los SLA y puede no representar lo que el usuario espera realmente. Los índices de cumplimiento de los SLA son buenos indicadores para saber si los servicios prestados a los usuarios están dentro de los niveles aceptables (tal y como los define la dirección de TI).

Resolución en la primera llamada

El objetivo de la gestión de incidentes es resolver los problemas lo más rápido posible para minimizar la interrupción del trabajo. La reiteración de llamadas o tickets sobre un mismo incidente o la necesidad de hacer intervenir al usuario varias veces son indicadores de retrasos. Los índices de resolución en la primera llamada son claves para medir la eficiencia de las soluciones que ofrece el gestor de incidentes y de su éxito a la hora de minimizar el impacto en la empresa.

Contribución a la base de conocimientos

Los procesos de gestión de incidentes que aprovechan el conocimiento compartido son mucho más eficientes y rápidos que los que dependen de los incident managers para diagnosticar desde cero cada nuevo incidente. La contribución de artículos a la base de conocimientos (autoría, actualizaciones y revisiones) es una buena forma de medir cómo el gestor está colaborando con el éxito general de la gestión de incidentes.

Problemas resueltos por turno

Se trata de una métrica cuantitativa de productividad que indica el número de tickets resueltos durante un periodo determinado. No tiene en cuenta la complejidad del problema ni el nivel de conocimientos de los gestores de incidentes. Es habitual que los gestores de incidentes senior resuelvan menos —y más complejos— incidentes que un junior, que suele ocuparse de incidentes sencillos. Los índices de resolución de incidentes deben compararse con los de otros colegas con niveles de competencia y cargas de trabajo similares.

Tasa de escalada

No se espera que los gestores de incidentes resuelvan todos los tickets por sí mismos. A veces, es necesario escalarlos. Supervisar las tasas de escalada, además de la cantidad de tiempo que el gestor de incidentes trabaja en un problema antes de escalarlo, es un buen indicador para evaluar si dedica demasiado tiempo a cada problema (o demasiado poco). También es una buena señal para saber si la carga de trabajo asignada es adecuada para el nivel de conocimientos del gestor.

Satisfacción de los usuarios

Esta es la métrica más común para analizar las habilidades blandas y de atención al cliente del gestor de incidentes. El objetivo del soporte técnico es ayudar a los usuarios de la empresa a ser más productivos. Si bien los índices de satisfacción son subjetivos, ofrecen un mejor indicador que el cumplimiento de los SLA en cuanto al grado de realización de las expectativas de los usuarios. También suelen ofrecer valiosas pistas sobre las oportunidades de mejora y capacitación.

Funciones del incident manager según el tamaño de la organización

En las organizaciones de TI pequeñas, es probable que los gestores de incidentes tengan un papel más generalizado de atención al cliente, debido a que abordan una amplia variedad de problemas técnicos y peticiones de los usuarios (solicitudes de servicio). Normalmente, solo habrá unas pocas personas asignadas a esta actividad, con el objetivo expreso de evitar la necesidad de transferir el trabajo a otros miembros del equipo de TI. En otras palabras, los gestores de incidentes están ahí para que otros miembros del equipo de TI no tengan que interrumpir su trabajo tan a menudo. En las organizaciones más pequeñas, los procesos, sistemas y métricas pueden ser menos formales y los gestores de incidentes tendrán una amplia discreción para “hacer lo que sea necesario” a fin de resolver el incidente.

A medida que las organizaciones de TI se expanden, las funciones de gestión de incidentes se vuelven más estructuradas y formales. Se adoptan procesos estándar (como ITIL), se implantan plataformas de ITSM y se formalizan los SLA y las métricas a monitorear. En estas organizaciones, los gestores de incidentes encuentran sus funciones más limitadas y focalizadas, pero también suelen tener un mayor acceso a recursos de apoyo e información de toda la organización.

Actualmente, muchas organizaciones de TI recurren a proveedores externos para que gestionen sus incidentes. Esto puede incluir a los proveedores de componentes tecnológicos, las funciones de asistencia técnica subcontratadas y los proveedores de servicios gestionados. En las organizaciones de TI que incluyen un ecosistema de proveedores, los incident managers a menudo deben colaborar con terceros. La forma en que el gestor de incidentes lo haga repercutirá tanto en la calidad de la resolución de incidentes como en la capacidad de alcanzar los SLA de resolución establecidos.

Por último, las organizaciones de TI más grandes suelen segmentar sus equipos de gestión de incidentes en especialidades (redes, centro de datos, soporte técnico, etc.) e implementan reglas y flujos de trabajo dentro de sus sistemas ITSM para ayudar a canalizar los incidentes hacia los equipos idóneos. En estos ámbitos, es importante que los gestores de incidentes conozcan el alcance de sus responsabilidades y la forma de relacionarse con otros equipos, ya sea para trasladar un incidente o para colaborar en su resolución.

Muchas empresas internacionales han implementado procesos de gestión de incidentes que “siguen al Sol”, con múltiples equipos de gestión de incidentes que trabajan por turnos, a menudo en diferentes ubicaciones geográficas. Esto permite al departamento de TI ofrecer una cobertura continua durante las 24 horas. Ahora bien, para los gestores de incidentes, esto supone una complejidad extra en su trabajo y, al mismo tiempo, una oportunidad. En este tipo de esquemas, al final de un turno, los incidentes abiertos se conservan y se dejan en suspenso hasta el día siguiente o se transfieren al próximo turno. Los incidentes transferidos requieren un mayor nivel de rigor en la documentación, así como un proceso de traspaso estructurado para garantizar que toda la información y las acciones que se llevan a cabo se comunican correctamente.

Consideraciones de seguridad y riesgo en la gestión de incidentes

Los gestores de incidentes suelen tener permisos de administradores en los sistemas informáticos. Esto es necesario para permitir el diagnóstico y la resolución de problemas, pero también puede presentar algunos riesgos para la organización. Por lo tanto, es importante que los incident managers comprendan que, además de tener acceso a información y a potentes herramientas de apoyo, tienen la responsabilidad de garantizar la seguridad y de comprender las repercusiones que pueden tener sus acciones.

Reinicio de servicios y sistemas

Muchas veces, para resolver un incidente, los gestores reinician los servicios sin ser plenamente conscientes de que otros usuarios y áreas de la empresa pueden necesitarlos. No es raro que los reinicios durante las horas pico de trabajo tengan un impacto aún mayor que el problema original que el gestor pretendía resolver.

Correcciones destructivas

Los sistemas de TI son complejos y tienen muchas dependencias que no se comprenden ni documentan correctamente. El cambio de una configuración o la aplicación de una corrección para resolver un problema crea la posibilidad de que se produzca otro. Antes de realizar cambios en los sistemas, los gestores de incidentes deben ser conscientes de la posibilidad de que se produzcan “correcciones destructivas” y asegurarse de que se hayan realizado las pruebas y los planes de reversión correspondientes.

Acceso a datos sensibles

Los gestores de incidentes de TI suelen tener acceso a datos de producción (que pueden ser secretos), información personal de los empleados o datos sensibles de los clientes. La divulgación involuntaria de datos privados es uno de los errores de seguridad más comunes que cometen los gestores de incidentes, concretamente la inclusión de información sensible en las comunicaciones de los usuarios o en las notas de los tickets que no cuentan con los mismos controles de acceso que los sistemas de origen.

Destrucción de pistas y síntomas

Una gestión eficaz de los problemas requiere comprender lo que estaba ocurriendo en el entorno de TI en el momento en que se produjo el incidente. Lamentablemente, mientras se solucionan los incidentes, los gestores a menudo deben tomar medidas que destruyen pistas y eliminan síntomas que podrían ayudar en el análisis de la causa raíz. Es importante que los gestores de incidentes y de problemas colaboren estrechamente para recopilar estos valiosos datos.

Revertir los cambios sin entender las dependencias

Los cambios y lanzamientos planificados son la causa de muchos incidentes en los sistemas de TI y una resolución habitual es revertirlos y volver a la versión anterior. Por desgracia, las versiones suelen probarse en paquetes, lo que oculta las dependencias internas que pueden verse afectadas si se revierte un solo componente. Antes de revertir los cambios implementados en el marco de una nueva versión, el gestor de incidentes debe consultar con el gestor de versiones y el equipo responsable del proyecto, ya que puede ser necesario realizar pruebas adicionales.

Eludir los mecanismos de control de cambios

La mayoría de las organizaciones cuentan con sólidos mecanismos de control de cambios que incluyen la revisión y aprobación de los mismos. Su finalidad es salvaguardar la infraestructura de TI de impactos adversos y garantizar la debida diligencia y la mitigación de riesgos. Los incident managers suelen tener acceso y autorización para actuar de forma independiente y aplicar cambios en los sistemas de producción que deberían ser revisados como parte del proceso normal de control de cambios. Por esa razón, deben comprender cuándo están facultados para actuar y cuándo deben solicitar aprobación antes de aplicar cambios.

El valor de los incident managers para su organización de TI

Los gestores de incidentes son esenciales para cualquier organización por ser la primera línea de interacción entre los usuarios de la empresa y el personal de TI. Evalúan el impacto de los incidentes, su urgencia e importancia, con el fin de garantizar que las actividades más trascendentales reciban la mayor atención. Los gestores de incidentes realizan gran parte de los diagnósticos, la recopilación de datos y la resolución de problemas necesarios para entender lo que está ocurriendo cuando un sistema de TI no funciona correctamente, y toman medidas para remediar el problema, de modo de minimizar la interrupción de la actividad.

Los gestores de incidentes tienen la tarea de resolver rápidamente los impactos operativos para minimizar la interrupción de la productividad de los usuarios y de la empresa en general. Cada incidente es una interrupción que cuesta a la empresa tiempo, recursos y capacidad, e incluso puede dañar su reputación en el mercado. Los gestores de incidentes se encargan de responder a los eventos y problemas imprevistos para evitar que otros empleados de TI se distraigan del trabajo en sus proyectos y tareas diarias.

Además de resolver los impactos a corto plazo, los gestores de incidentes son responsables de capturar datos para apoyar los procesos de gestión de problemas, de modo que se pueda identificar la causa raíz de los incidentes y desarrollar soluciones a largo plazo para prevenir futuros inconvenientes. Los incident managers también recopilan valiosos conocimientos sobre la organización y los transforman en artículos que permiten resolver problemas conocidos y que ayudan a mejorar el soporte durante futuros problemas. Eso permite que los equipos de desarrollo de soluciones construyan sistemas y servicios de mejor calidad para satisfacer las necesidades de la empresa.