Что такое мониторинг инфраструктуры

Мониторинг инфраструктуры — это непрерывный сбор показателей серверов, контейнеров, баз данных и сети, их хранение, визуализация и оповещения, когда что-то выходит за норму. Цель — заметить проблему раньше пользователя и быстрее найти причину.

Что именно отслеживают

  • Хосты: CPU, память, диск (место и I/O), сеть, load average.
  • Контейнеры и оркестрация: рестарты подов, лимиты CPU/памяти, OOM-kills.
  • Базы данных: соединения, медленные запросы, репликационный лаг.
  • Сервисы и приложения: rate ошибок, latency (p50/p95/p99), очереди.

Из чего состоит

  1. Сбор — агент или экспортер снимает метрики и отправляет их в хранилище.
  2. Хранение — time-series база (TSDB) держит ряды точек.
  3. Визуализация — дашборды с графиками.
  4. Алертинг — правила, которые шлют оповещение в Slack/Telegram/on-call, когда метрика нарушает порог.

Push против pull

При pull-модели сервер сам ходит за метриками (как Prometheus). При push-модели агент сам отправляет данные. Unimoni использует push поверх mTLS — на ваших серверах не нужно открывать входящие порты.

С чего начать

Снимите базовые метрики хостов (USE: Utilization, Saturation, Errors), заведите несколько actionable-алертов (хост недоступен, мало места на диске, рост ошибок) и не плодите шум — алерт без действия только притупляет внимание.