Was ist Infrastruktur-Monitoring
Infrastruktur-Monitoring ist das kontinuierliche Erfassen von Kennzahlen aus Servern, Containern, Datenbanken und dem Netzwerk, deren Speicherung, Visualisierung und Alarmierung, wenn etwas aus dem Rahmen fällt. Ziel ist es, ein Problem vor den Nutzern zu bemerken und die Ursache schneller zu finden.
Was genau überwacht wird
- Hosts: CPU, Speicher, Disk (Platz und I/O), Netzwerk, Load Average.
- Container und Orchestrierung: Pod-Restarts, CPU-/Speicher-Limits, OOM-Kills.
- Datenbanken: Verbindungen, langsame Queries, Replikations-Lag.
- Services und Anwendungen: Fehlerrate, Latenz (p50/p95/p99), Queues.
Woraus es besteht
- Sammlung — ein Agent oder Exporter scrapt Metriken und schickt sie an den Speicher.
- Speicher — eine Time-Series-Datenbank (TSDB) hält die Punktreihen.
- Visualisierung — Dashboards mit Diagrammen.
- Alerting — Regeln, die eine Benachrichtigung an Slack/Telegram/On-call senden, wenn eine Metrik einen Schwellwert verletzt.
Push vs. Pull
Im Pull-Modell holt der Server die Metriken selbst (wie Prometheus). Im Push-Modell sendet der Agent die Daten selbst. Unimoni nutzt Push über mTLS — Sie müssen keine eingehenden Ports auf Ihren Servern öffnen.
Womit anfangen
Erfassen Sie grundlegende Host-Metriken (USE: Utilization, Saturation, Errors), richten Sie ein paar umsetzbare Alerts ein (Host down, wenig Disk-Platz, steigende Fehler) und erzeugen Sie keinen Lärm — ein Alert ohne Aktion stumpft nur die Aufmerksamkeit ab.