O que é gestão de problemas?

Gestão de problemas é o conjunto de processos e atividades responsáveis por gerenciar o ciclo de vida de qualquer problema no serviço de TI. Seu principal objetivo é evitar que ocorram problemas e suas consequências. Para os incidentes já ocorridos, a gestão de problemas busca evitar que voltem a acontecer ou, caso sejam inevitáveis, visa minimizar o impacto ao negócio. Para entendê-la, é preciso primeiramente definir o que é um problema. A ITIL define como a causa de um ou mais incidentes.

gerenciamento de problemas

Outro jeito de entender o conceito é pensar que um problema é uma condição subjacente, com impactos negativos e que precisa ser tratado. Os problemas têm um ciclo de vida que começa na sua criação (muitas vezes por uma mudança no ambiente), inclui a identificação e os estágios de diagnóstico e remediação e termina quando o problema é resolvido por meio de alguma ação direta ou com o fim da situação subjacente. O portfólio de gestão de problemas é responsável por manter as informações sobre os problemas existentes, quaisquer soluções alternativas que tenham sido desenvolvidas e as opções de resolução que foram identificadas. Essas informações permitem que os gestores tomem as decisões adequadas.

Gestão de incidentes e problemas

A diferença entre gerenciamento de incidentes e problemas ITIL é uma das maiores causas de confusão nos processos de gestão de serviços e ITIL. Embora estejam relacionados, não significam a mesma coisa. A gestão de incidentes tem a tarefa de responder a um evento ocorrido, minimizando o impacto nos negócios e restaurando o serviço o mais rapidamente possível. A gestão de problemas tem a tarefa de compreender a causa raiz pela qual o evento ocorreu e como evitar que aconteça no futuro.

As principais atividades da gestão de incidentes são:

Antes de conseguir corrigir a situação, pode ser que a gestão de problemas precise analisar e coletar dados de múltiplos incidentes. Por isso, a comunicação e a coordenação entre os gestores são essenciais. A gestão de problemas é uma parte essencial da Gestão de Serviços de TI. Ela compila o conhecimento obtido por meio do monitoramento, gestão de incidentes e outras partes das operações de serviço e utiliza-os nos processos de melhoria contínua de serviço, que ajudarão a aprimorar os serviços fornecidos.

Quais as responsabilidades do gestor de problemas?

Os gerentes de problemas são responsáveis ​​pela gestão do ciclo de vida dos problemas para garantir que sejam claramente compreendidos e que as ações apropriadas sejam tomadas. Seu objetivo é prevenir a ocorrência de incidentes e minimizar os impactos daqueles que não podem ser evitados. Assim, os gerentes de problemas precisam manter uma comunicação com a equipe de gerenciamento de incidentes e recursos técnicos para garantir que os dados diagnósticos sobre os incidentes e suas condições sejam registrados. Eles são responsáveis ​​por realizar a análise da causa raiz (RCA) para ajudar a organização a identificar não apenas por que um incidente ocorreu, mas também quando e como o problema subjacente foi introduzido no ambiente. A análise da causa raiz frequentemente resulta na identificação de uma série de soluções alternativas, e o gerente de problemas desempenha um papel fundamental em ajudar a qualificar as alternativas em relação ao custo, benefício e risco para fornecer uma recomendação aos tomadores de decisão de gerenciamento. É comum que as ações de resolução demorem algum tempo para serem canalizadas por meio dos processos de gerenciamento de mudanças e liberações apropriados. Durante esse tempo, os gerentes de problemas são responsáveis ​​por garantir que os recursos de gerenciamento de conhecimento e bancos de dados de erros conhecidos sejam mantidos atualizados, permitindo que a equipe de gerenciamento de incidentes resolva com eficácia quaisquer incidentes recorrentes ou solicitações de serviço. Embora a gestão de incidentes e a de problemas sejam processos separados, os gestores normalmente usam as mesmas ferramentas, categorização, sistemas de codificação de impacto e prioridade como forma de promover a colaboração eficaz entre as áreas.

 

 

Gestão proativa e gestão reativa de problemas

A gestão de problemas pode ser dividida em dois grandes processos:

A gestão proativa de problemas visa a identificar incidentes futuros e evitar que eles ocorram novamente, identificando e eliminando a causa raiz antes que possam causar incidentes com impacto no serviço. Ela é fortemente influenciada por dados gerados por meio de recursos de monitoramento automatizado, análise de registros de alterações e o uso de análise de tendências. A gestão proativa de problemas difere de sua contraparte reativa por abordar três áreas principais:

A gestão reativa de problemas reage a incidentes recorrentes, analisando a causa raiz e oferecendo uma solução de longo prazo. É crucial identificar esses incidentes repetidos como problemas. O gerenciamento de incidentes visa a restaurar os serviços o mais rapidamente possível e, portanto, muitas vezes ignora a causa subjacente dos incidentes. Por outro lado, a equipe de gerenciamento de problemas em TI é a responsável pela pesquisa e análise detalhada. Essa transferência é importante e deve ocorrer no tempo certo para manter a integridade do serviço.

A equipe de gerenciamento de incidentes deve transmitir informações como categoria do incidente, ICs afetados, criticidade e impacto. O processo de gerenciamento reativo de problemas registra essas informações e faz um RCA detalhado, envia o RFC e atualiza o registro do problema no KEDB. O gerenciamento reativo de problemas começa com a verificação de padrões de incidentes e inclui a revisão de incidentes anteriores na central de atendimento.

Com realizar o gerenciamento de problemas

A ITIL define a gestão de problemas como uma parte das operações de serviço fortemente relacionada às gestões de incidentes e mudanças e à melhoria contínua do serviço. Ela divide a gestão de problemas nos seguintes subprocessos:


Soluções alternativas

O gerenciamento de problemas ITIL pode ser um processo demorado e, enquanto está em andamento, a organização de TI precisa oferecer serviços aos usuários. Para fazer isso, as ferramentas/técnicas mais comuns empregadas pelos colaboradores de gestão de serviço são as soluções alternativas.

São soluções temporárias destinadas a reduzir ou eliminar o impacto de problemas conhecidos e para os quais uma resolução completa ainda não está disponível. Isso pode ocorrer porque as causas subjacentes não podem ser prontamente identificadas, as etapas de resolução não foram desenvolvidas ou a organização ainda não implementou resoluções permanentes.

As soluções alternativas não corrigem a causa raiz de um problema, simplesmente tratam dos sintomas e impactos. Exemplos comuns de soluções alternativas incluem reinicializar servidores, limpar caches de aplicativos ou usar um processo ou sistema alternativo para concluir a atividade.

Elas podem ser executadas pela equipe de gerenciamento de incidentes ou por usuários finais e podem estar em uso por qualquer período de tempo (de segundos a anos).

A maioria das organizações documenta soluções alternativas como parte de seu sistema de gerenciamento de conhecimento, vinculando-as a registros no banco de dados de erros conhecidos. Esses registros podem ser apresentados aos usuários como FAQs ou podem ser visíveis apenas para a equipe como instruções de diagnóstico.

É importante ter em mente que as soluções alternativas seguem o mesmo ciclo de vida do problema subjacente e, como tal, quando o problema for resolvido, a solução alternativa deve ser desativada para evitar confusão.