Mejores prácticas de Monitoreo y Manejo de eventos orientadas a ITIL®

La Gestión de Eventos puede aplicarse a cualquier aspecto de la Gestión de Servicios que pueda ser controlado y automatizado.

Los eventos (advertencias y excepciones) pueden utilizarse para automatizar muchas actividades rutinarias.

Proporciona mecanismos para la detección temprana de incidentes.

Algunas actividades automatizadas pueden ser monitoreadas por excepción, reduciendo el tiempo de inactividad.

El alcance de la práctica de monitoreo y gestión de eventos incluye:

Identificar y optimizar el alcance del monitoreo.
Implementar y mantener el monitoreo continuo.
Establecer y mantener reglas de identificación, categorización y procesamiento de eventos.
Implementar procesos y herramientas de automatización para operacionalizar las reglas definidas de gestión de eventos.
Procesamiento continuo de eventos según las reglas y procesos acordados e implementados.
Proporcionar información sobre el estado actual e histórico de los servicios y recursos monitoreados a las partes interesadas relevantes en una forma acordada.

¿Qué es un Evento en ITIL 4? ITIL 4 define un evento como “cualquier cambio de estado que tenga importancia para la gestión de un servicio u otro elemento de configuración (CI)”.

Un evento puede definirse como cualquier ocurrencia detectable que tenga importancia para la gestión de los servicios de TI o la infraestructura de TI. Un evento puede ser generado por hardware, software, aplicaciones o actividad humana, y puede ser normal o anormal. Hay 3 tipos de eventos en ITIL: informativos, de advertencia y excepcionales.

¿Qué es un Evento Informativo? Un evento informativo en ITIL 4 es un evento detectado por una herramienta o sistema de monitoreo y no requiere ninguna acción o intervención. Se registra simplemente con fines informativos.

Los eventos informativos se utilizan para capturar y almacenar datos sobre el rendimiento y la disponibilidad de los servicios de TI, la infraestructura y las aplicaciones. Estos eventos pueden incluir inicio y apagado del sistema, cambios en el estado del sistema, actividades de inicio y cierre de sesión de usuarios, y otros eventos automáticos del sistema.

El propósito de recopilar y analizar eventos informativos es obtener información sobre la salud general y el rendimiento del entorno de TI. Estos datos se pueden utilizar para identificar tendencias y patrones, pronosticar la demanda futura y respaldar esfuerzos de planificación y optimización de capacidad. Además, los eventos informativos pueden utilizarse para respaldar actividades de resolución de problemas, ya que pueden proporcionar información contextual valiosa para investigaciones de incidentes y problemas.

¿Qué es un Evento de Advertencia? Un evento de advertencia en ITIL 4 es un evento que indica que se ha detectado un problema o problema potencial que requiere atención o intervención.

Un evento de advertencia puede ser una indicación de un problema que afecta actualmente el rendimiento o la disponibilidad de los servicios de TI, la infraestructura o las aplicaciones, o puede ser un signo de un problema inminente que debe abordarse proactivamente para evitar interrupciones en el servicio.

Ejemplos de eventos de advertencia incluyen la utilización de la CPU que alcanza un umbral crítico, un disco duro que se queda sin espacio, un enlace de red que se satura o un servidor que se vuelve irresponsivo. Estos eventos son detectados típicamente por herramientas o sistemas de monitoreo y se envían al equipo de operaciones de TI para una mayor investigación y acción.

El propósito de los eventos de advertencia es proporcionar una advertencia temprana de problemas o problemas potenciales, permitiendo que los equipos de operaciones de TI tomen medidas proactivas para prevenir interrupciones del servicio y minimizar el impacto de los incidentes. Los eventos de advertencia pueden activar respuestas automatizadas, como la creación de tickets de incidentes, o pueden utilizarse para informar al personal de operaciones de TI sobre la necesidad de atención y acción inmediatas.

¿Qué es un Evento Excepcional? Un evento excepcional en ITIL 4 es un evento que requiere atención e intervención inmediatas por parte del personal de operaciones de TI.

Los eventos excepcionales son típicamente indicadores de problemas o problemas significativos que afectan el rendimiento o la disponibilidad de los servicios de TI, la infraestructura o las aplicaciones, y requieren acción urgente para restaurar las operaciones normales del servicio.

Ejemplos de eventos excepcionales incluyen bloqueos de servidor, interrupciones de red, violaciones de seguridad, corrupción de datos y otros incidentes críticos que requieren atención inmediata del personal de operaciones de TI.

El propósito de los eventos excepcionales es proporcionar un mecanismo para que el personal de operaciones de TI priorice y responda a incidentes críticos de manera oportuna y efectiva. Los eventos excepcionales activan el inicio del proceso de gestión de incidentes, que incluye actividades como detección de incidentes, registro, categorización, priorización y resolución. Los eventos excepcionales también activan el proceso de gestión de continuidad del servicio, que se centra en restablecer las operaciones normales del servicio lo más rápido posible y minimizar el impacto de los incidentes en las operaciones comerciales.

Es importante que las organizaciones tengan procesos y procedimientos bien definidos para manejar eventos excepcionales para asegurar que los incidentes se manejen de manera efectiva y eficiente, y para minimizar el impacto en clientes y la organización.

Ejemplos de Monitoreo y Gestión de Eventos en ITIL 4 En ITIL 4, el monitoreo y la gestión de eventos son componentes críticos de la etapa de operación del servicio del ciclo de vida del servicio de ITIL. Aquí hay algunos ejemplos de cada tipo de evento:

Algunos ejemplos de Eventos Informativos:

Inicio y apagado del sistema
Actividades de inicio y cierre de sesión de usuarios
Transferencias de archivos
Copias de seguridad exitosas
Actividades de mantenimiento rutinario

Ejemplos de eventos de advertencia:

Alta utilización de la CPU
Espacio en disco bajo
Alto uso de memoria
Congestión de red
Tiempo de respuesta lento

Ejemplos de eventos excepcionales:

Bloqueo del servidor
Interrupción de red
Violación de seguridad
Corrupción de datos
Fallo de la aplicación

Cabe señalar que algunos eventos pueden caer en diferentes categorías según el contexto y la gravedad del evento. Por ejemplo, un evento de alta utilización de la CPU puede ser un evento de advertencia en algunos casos, pero también puede convertirse en un evento excepcional si persiste durante un período prolongado y comienza a afectar la disponibilidad del servicio.

Métricas para el Seguimiento del Monitoreo y la Gestión de Eventos en ITIL 4 En ITIL 4, las métricas se utilizan para medir y evaluar la eficacia y eficiencia de los procesos de Monitoreo y Gestión de Eventos. Aquí hay algunos ejemplos de métricas que se pueden utilizar para realizar un seguimiento del Monitoreo y la Gestión de Eventos en ITIL 4, algunas de las cuales alimentarán otros indicadores clave de rendimiento del proceso, típicamente para la gestión de incidentes:

Número de eventos y alertas: Esta métrica mide el número total de eventos y alertas generados por herramientas y sistemas de monitoreo, incluidos eventos informativos, de advertencia y excepcionales. Esta métrica se puede utilizar para realizar un seguimiento del volumen general de eventos y para identificar tendencias y patrones con el tiempo.

Tiempo de detección y diagnóstico de incidentes: Esta métrica mide el tiempo que tarda en detectar y diagnosticar incidentes, desde la detección inicial del evento hasta la creación de un ticket de incidente. Esta métrica se puede utilizar para evaluar la eficiencia de los procesos de gestión de eventos y para identificar áreas de mejora.

Tiempo de resolución: Esta métrica mide el tiempo que se tarda en resolver incidentes y restaurar las operaciones normales del servicio. Esta métrica se puede utilizar para evaluar la eficacia de los procesos de gestión de incidentes y para identificar oportunidades para reducir el tiempo de inactividad y mejorar la disponibilidad del servicio.

Tiempo medio entre fallos (MTBF): Esta métrica mide el tiempo promedio entre fallas de los servicios de TI, la infraestructura o las aplicaciones. Esta métrica se puede utilizar para evaluar la confiabilidad de los sistemas de TI y para identificar áreas de mejora.

Tiempo medio de reparación (MTTR): Esta métrica mide el tiempo promedio que se tarda en reparar sistemas de TI o resolver incidentes. Esta métrica se puede utilizar para evaluar la eficiencia de los procesos de gestión de incidentes y para identificar áreas de mejora.

Falsos positivos y falsos negativos: Esta métrica mide el número de falsos positivos y falsos negativos generados por herramientas y sistemas de monitoreo. Esta métrica se puede utilizar para evaluar la precisión de los procesos de monitoreo y gestión de eventos y para identificar oportunidades para mejorar la calidad de los datos de eventos.

Reducción de ruido del evento: Esta métrica mide el porcentaje de eventos y alertas que se filtran o descartan como ruido. Esta métrica se puede utilizar para evaluar la efectividad de las estrategias de reducción de ruido y para identificar oportunidades para una optimización adicional.

Al realizar un seguimiento y analizar estas métricas, las organizaciones de TI pueden obtener información valiosa sobre el rendimiento y la eficacia de sus procesos de Monitoreo y Gestión de Eventos, y tomar decisiones basadas en datos para mejorar sus operaciones de TI.

¿Cuáles son las Mejores Prácticas para el Monitoreo y la Gestión de Eventos? Las mejores prácticas para el monitoreo y la gestión de eventos son métodos o procesos probados y repetibles que se reconocen como las formas más efectivas y eficientes de lograr un objetivo o meta particular. Estas mejores prácticas se han desarrollado a lo largo de años de experiencia y experimentación, y son ampliamente aceptadas y adoptadas por profesionales y organizaciones. Aquí hay algunas mejores prácticas para la práctica de Monitoreo y Gestión de Eventos en ITIL4:

Definir objetivos claros: Establecer objetivos claros para el Monitoreo y la Gestión de Eventos que estén alineados con los objetivos y metas comerciales de la organización. Esto ayudará a asegurar que las actividades de monitoreo se centren en los servicios y sistemas más críticos.

Seleccionar herramientas y sistemas apropiados: Seleccionar herramientas y sistemas de monitoreo que sean apropiados para las necesidades de la organización y que proporcionen el nivel necesario de visibilidad y control. Considerar factores como escalabilidad, flexibilidad, facilidad de uso e integración con otros procesos de ITSM.

Definir umbrales y alertas de eventos: Definir umbrales claros y alertas para eventos de advertencia y excepcionales y asegurarse de que estén alineados con las necesidades de la organización. Esto ayudará a garantizar que el personal de TI sea notificado de eventos críticos de manera oportuna y pueda tomar medidas apropiadas para prevenir o minimizar el impacto de las interrupciones del servicio.

Implementar procesos automatizados de gestión de eventos: Implementar procesos automatizados de gestión de eventos para minimizar la intervención manual y reducir el riesgo de error humano. Esto puede incluir correlación automática de eventos, análisis de causa raíz y creación de tickets de incidentes.

Utilizar análisis de datos e informes: Utilizar análisis de datos e informes para identificar tendencias, patrones y anomalías en los datos de eventos, y para respaldar la toma de decisiones y la mejora continua. Esto puede incluir paneles de control, informes y herramientas de visualización de datos.

Revisar y mejorar continuamente los procesos: Revisar y mejorar continuamente los procesos de Monitoreo y Gestión de Eventos para asegurar que sean efectivos y eficientes en el soporte de las operaciones de la organización. Esto puede incluir revisiones periódicas de procesos, retroalimentación de las partes interesadas y comparación con las mejores prácticas de la industria.

Alinear con otros procesos de ITSM: Asegurarse de que los procesos de Monitoreo y Gestión de Eventos estén alineados con otros procesos de ITSM, como Gestión de Incidentes, Gestión de Problemas y Gestión del Cambio. Esto ayudará a garantizar que los eventos se gestion

Servers: (Windows)

Important Windows Services for critical servers (i.e. SQL Server services, Quickbooks, etc.)
Backup status if available
Hardware monitoring (SNMP)
- RAID Health
- Redundant Power Supplies
- Temperatures
Active Directory Health
Patch Status
Disk capacity monitoring
CPU/Memory for application servers
AV Health
Event logs (specifically security related)

Servers: (VMWARE)

Hardware monitoring (SNMP)
- RAID Health
- Redundant Power Supplies
- Temperatures
Store Capacity
CPU/Memory

Networking Gear:

Connectivity
Typically we’ll monitor site to site VPN connectivity
SNMP hardware monitoring
- CPU/Memory
- Temperatures
Syslog for specific events around security (for firewalls typically)
Switchport monitoring if it’s a critical core switch
If possible monitor firmware versions

Workstations (no notifications for this class, but we do get a monthly report on any systems with bad patches)

CPU/Memory/Disk
Patch Status
AV Health

Domain Monitoring:

AD Replication Monitoring (latency/time)

cmd.exe repadmin /replsummary

DNS Failures – Monitor for Event ID: 4015 on AD:DS Servers

Basically if you see this you need to check DNS like now

PKI Monitoring (Certificate monitoring for the domain)

Side note: read this book – Windows Server 2008 PKI and Certificate Security https://b-ok.cc/book/710782/e34479
Yes it’s 2008, but this book comprehensively lays out how to implement Enterprise PKI in your environment, what it does, and why it’s important.
CA Certificate expiration monitoring
CRL expiration monitoring