База знаний/Основы

Что такое мониторинг инфраструктуры

Мониторинг инфраструктуры — это непрерывный сбор показателей серверов, контейнеров, баз данных и сети, их хранение, визуализация и оповещения, когда что-то выходит за норму. Цель — заметить проблему раньше пользователя и быстрее найти причину.

Что именно отслеживают

Хосты: CPU, память, диск (место и I/O), сеть, load average.
Контейнеры и оркестрация: рестарты подов, лимиты CPU/памяти, OOM-kills.
Базы данных: соединения, медленные запросы, репликационный лаг.
Сервисы и приложения: rate ошибок, latency (p50/p95/p99), очереди.

Из чего состоит

Сбор — агент или экспортер снимает метрики и отправляет их в хранилище.
Хранение — time-series база (TSDB) держит ряды точек.
Визуализация — дашборды с графиками.
Алертинг — правила, которые шлют оповещение в Slack/Telegram/on-call, когда метрика нарушает порог.

Push против pull

При pull-модели сервер сам ходит за метриками (как Prometheus). При push-модели агент сам отправляет данные. Unimoni использует push поверх mTLS — на ваших серверах не нужно открывать входящие порты.

С чего начать

Снимите базовые метрики хостов (USE: Utilization, Saturation, Errors), заведите несколько actionable-алертов (хост недоступен, мало места на диске, рост ошибок) и не плодите шум — алерт без действия только притупляет внимание.

Что такое observability простыми словами

Что такое time-series база данных (TSDB)

SLO, SLI и SLA: в чём разница