Base de conocimiento/Best practices

Plantillas de paneles

SRE on-call

  • 4 widgets arriba: error rate / p95 latency / RPS / saturation (el método USE)
  • Variables: env=prod (static), service=label_values
  • Auto-refresh: 30s

Capacity planning

  • Gráficas de CPU/RAM a 7 días de toda la flota
  • Predict_linear para memoria: predict_linear(node_memory_used_percent[7d], 86400 * 30) — dónde estaremos en 30 días
  • Authentication metrics: nuevos usuarios / activos / churn

KPI de negocio

  • Revenue (una métrica custom)
  • Signups / day
  • Funnel: visits → signup → trial → paid

Embed para clientes

  • 1-2 widgets: success rate + latency
  • Public share con un TTL de 30 días