Wissensdatenbank/Best practices

Dashboard-Templates

SRE-On-Call

  • 4 Widgets oben: error rate / p95 latency / RPS / saturation (die USE-Methode)
  • Variablen: env=prod (static), service=label_values
  • Auto-Refresh: 30s

Capacity Planning

  • 7-Tage-Graphen CPU/RAM über die Flotte
  • Predict_linear für Memory: predict_linear(node_memory_used_percent[7d], 86400 * 30) — wo wir in 30 Tagen stehen
  • Authentication Metrics: neue Nutzer / aktiv / Churn

Business-KPI

  • Revenue (eine Custom-Metrik)
  • Signups / day
  • Funnel: visits → signup → trial → paid

Embed für Kunden

  • 1-2 Widgets: success rate + latency
  • Public Share mit 30-Tage-TTL