Principios de alerting
Cada alerta = accionable
Una alerta debe decir «qué está roto ahora» y «qué hacer». Si una alerta se dispara y el equipo dice «bah, da igual», no hace falta.
Pages solo para critical
severity: critical → PagerDuty / SMS. Solo si se requiere una reacción inmediata (24/7).
warning → el canal de Slack del equipo. Se mira en horario laboral.
info → un canal de auditoría. Para contexto, no para acción.
For-duration protege de un blip
for_duration_seconds: 60 es el estándar. Menos, y tendrás flaps. Más, y no notarás un incidente real de inmediato.
Anomaly para métricas de negocio
Un threshold no sirve cuando «lo normal» depende de la hora del día. Anomaly con offset=7d capta «no como un martes habitual».