Qu’est-ce que le monitoring d’infrastructure
Le monitoring d’infrastructure est la collecte continue d’indicateurs des serveurs, conteneurs, bases de données et du réseau, leur stockage, leur visualisation et l’alerting lorsque quelque chose sort des limites. Le but est de repérer un problème avant les utilisateurs et d’en trouver la cause plus vite.
Ce qui est suivi exactement
- Hôtes : CPU, mémoire, disque (espace et I/O), réseau, load average.
- Conteneurs et orchestration : redémarrages de pods, limites CPU/mémoire, OOM kills.
- Bases de données : connexions, requêtes lentes, lag de réplication.
- Services et applications : taux d’erreurs, latence (p50/p95/p99), files d’attente.
De quoi c’est composé
- Collecte — un agent ou un exporter récupère les métriques et les envoie au stockage.
- Stockage — une base time-series (TSDB) garde les séries de points.
- Visualisation — des dashboards avec graphiques.
- Alerting — des règles qui envoient une notification vers Slack/Telegram/on-call quand une métrique franchit un seuil.
Push contre pull
En modèle pull, le serveur va chercher les métriques lui-même (comme Prometheus). En modèle push, l’agent envoie les données lui-même. Unimoni utilise le push sur mTLS — pas besoin d’ouvrir de ports entrants sur vos serveurs.
Par où commencer
Capturez les métriques de base des hôtes (USE : Utilization, Saturation, Errors), mettez en place quelques alertes actionnables (hôte indisponible, peu d’espace disque, erreurs en hausse) et ne multipliez pas le bruit — une alerte sans action ne fait qu’émousser l’attention.