Что такое мониторинг инфраструктуры
Мониторинг инфраструктуры — это непрерывный сбор показателей серверов, контейнеров, баз данных и сети, их хранение, визуализация и оповещения, когда что-то выходит за норму. Цель — заметить проблему раньше пользователя и быстрее найти причину.
Что именно отслеживают
- Хосты: CPU, память, диск (место и I/O), сеть, load average.
- Контейнеры и оркестрация: рестарты подов, лимиты CPU/памяти, OOM-kills.
- Базы данных: соединения, медленные запросы, репликационный лаг.
- Сервисы и приложения: rate ошибок, latency (p50/p95/p99), очереди.
Из чего состоит
- Сбор — агент или экспортер снимает метрики и отправляет их в хранилище.
- Хранение — time-series база (TSDB) держит ряды точек.
- Визуализация — дашборды с графиками.
- Алертинг — правила, которые шлют оповещение в Slack/Telegram/on-call, когда метрика нарушает порог.
Push против pull
При pull-модели сервер сам ходит за метриками (как Prometheus). При push-модели агент сам отправляет данные. Unimoni использует push поверх mTLS — на ваших серверах не нужно открывать входящие порты.
С чего начать
Снимите базовые метрики хостов (USE: Utilization, Saturation, Errors), заведите несколько actionable-алертов (хост недоступен, мало места на диске, рост ошибок) и не плодите шум — алерт без действия только притупляет внимание.