Wissensdatenbank/Grundlagen

Was ist Infrastruktur-Monitoring

Infrastruktur-Monitoring ist das kontinuierliche Erfassen von Kennzahlen aus Servern, Containern, Datenbanken und dem Netzwerk, deren Speicherung, Visualisierung und Alarmierung, wenn etwas aus dem Rahmen fällt. Ziel ist es, ein Problem vor den Nutzern zu bemerken und die Ursache schneller zu finden.

Was genau überwacht wird

Hosts: CPU, Speicher, Disk (Platz und I/O), Netzwerk, Load Average.
Container und Orchestrierung: Pod-Restarts, CPU-/Speicher-Limits, OOM-Kills.
Datenbanken: Verbindungen, langsame Queries, Replikations-Lag.
Services und Anwendungen: Fehlerrate, Latenz (p50/p95/p99), Queues.

Woraus es besteht

Sammlung — ein Agent oder Exporter scrapt Metriken und schickt sie an den Speicher.
Speicher — eine Time-Series-Datenbank (TSDB) hält die Punktreihen.
Visualisierung — Dashboards mit Diagrammen.
Alerting — Regeln, die eine Benachrichtigung an Slack/Telegram/On-call senden, wenn eine Metrik einen Schwellwert verletzt.

Push vs. Pull

Im Pull-Modell holt der Server die Metriken selbst (wie Prometheus). Im Push-Modell sendet der Agent die Daten selbst. Unimoni nutzt Push über mTLS — Sie müssen keine eingehenden Ports auf Ihren Servern öffnen.

Womit anfangen

Erfassen Sie grundlegende Host-Metriken (USE: Utilization, Saturation, Errors), richten Sie ein paar umsetzbare Alerts ein (Host down, wenig Disk-Platz, steigende Fehler) und erzeugen Sie keinen Lärm — ein Alert ohne Aktion stumpft nur die Aufmerksamkeit ab.

Was ist Observability, einfach erklärt

Was ist eine Time-Series-Datenbank (TSDB)

SLO, SLI und SLA: der Unterschied