Alertas a escala
It’s easy to just set thresholds to every possible monitored metric and add an alarm to it. But that could lead to fatigue, distractions, and also ignoring alerts, see Las alertas deben ser muy específicas. Es fácil simplemente establecer umbrales para cada métrica monitoreada posible y agregarle una alarma. Pero eso podría provocar fatiga, distracciones y también ignorar alertas, consulte este articulo para obtener más detalles.
Las alertas nunca deben ignorarse, incluso si cree que tiene una idea de qué las causó.
Para obtener buenos consejos sobre las alertas en general, consulte “My Philosophy on Alerting”.
Herramientas Saas
Pager Duty
VictorOps
On-Call
Hay una práctica en cada servicio en la nube, llamada "estar de guardia". Eso significa que, en algún momento, hay una persona responsable de reaccionar ante las alertas, independientemente de cuándo sucedan.
Eso significa estar listo para actuar en medio de la noche, los fines de semana, etc. Esa es una posición tediosa y agotadora, por lo que es mejor rotar a las personas con frecuencia en eso.
Un ejemplo de la política de guardia se puede encontrar en este GitLab On-Call Handbook.
Respuesta al incidente
¿Qué buscar primero?
¿Está el nodo en funcionamiento? ¿El cliente del validador está funcionando? ¿CPU/RAM/espacio en disco está bien?
Lea los registros. ¿Hay suficientes peers? ¿El número de validadores encontrado por el cliente del validador es el esperado?
¿Está su nodo sincronizado/se está sincronizando? Si es así, ¿está en el fork correcto ? Tome
/v1/beacon/headers/head
API y verifíquelo con cualquier explorador de bloques público o en una comunidad.¿Se está finalizando la red?
eth/v1/beacon/headers/finalized
API -- debe moverse cada 6,2 minutos.
Fugas de inactividad
La fuga de inactividad significa que su nodo fue elegido para realizar una determinada tarea (certificar el cabezal de la cadena o producir un bloque) y no hizo su trabajo a tiempo.
Las fugas de inactividad tienen penalizaciones relativamente pequeñas. Degradarán el rendimiento del Validador en términos de rendimiento anual. Eso significa que tiene alguna opción sobre cómo manejarlos:
Reaccione lo antes posible: utilícelo si tiene un equipo de DevOps adecuado y desea optimizar el rendimiento del nodo y el mejor APY posible. Asegurar rotaciones regulares en el equipo de guardia.
Reaccione solo durante el "horario comercial", pero los fines de semana, solo notifique, digamos, de 9:00 a 21:00 todos los días. Eso reduce en gran medida la tensión en el personal de guardia.
Reaccione solo durante el horario comercial, igual que (2), pero no notifique los fines de semana.
Retrasos en las certificaciones (rendimiento subóptimo del nodo)
Largos tiempos de procesamiento de bloques
Incidentes de seguridad
Posibles ataques de red
¿A qué canales comunicarse si cree que se trata de un ataque a la red?
Posible vulnerabilidad
¿A qué canales comunicarse si se trata de una posible vulnerabilidad?
TBD
Explicación de las alertas básicas que deben incorporar (slots retrasados, baja tasa de participación, tiempos de procesamiento de bloques, etc.)
¿Por cuánto tiempo almacenar los datos?
Recomendación genérica sobre mejores prácticas de alertas/métricas
Respuesta al incidente
¿Qué buscar primero? ¿Cuándo da la alarma? Primeros pasos requeridos durante la respuesta a la incidencia.
Last updated