Recurso
Alerts
Regras de threshold + anomalia, roteamento por severidade, silences, janelas de manutenção.
Um avaliador stateless dispara a cada 30 segundos, avalia todas as regras e deduplica incidentes por fingerprint (rule_id + labels da amostra). A máquina de estados pending → firing → resolved elimina o flapping. Webhooks assinados, Slack, Telegram, e-mail. Uma fila de retry com backoff de 30s / 2m / 10m. Roteamento por severidade com uma cadeia de fallback.
Propriedades-chave
- ✓Regras de threshold + detecção de anomalia (avg + σ stddev)
- ✓Expressões PromQL; a reescrita da AST injeta organization_id
- ✓Roteamento por severidade: critical e warning em canais diferentes
- ✓Silences (pontuais) + janelas de manutenção (RRULE)
- ✓Webhooks assinados com HMAC e timestamp de ±5min