Passer au contenu principal
Menu
DevOps

SYSTÈME DE MONITORING

Stack Prometheus/Grafana pour la surveillance métrique des serveurs et alertes Slack.

Dépôt bientôt disponible
PrometheusGrafanaAnsibleLinux
Phase 1

Contexte

Un serveur perso tombait régulièrement sans qu'on le remarque avant des heures. Pas de monitoring = pas de visibilité. J'ai construit une stack d'observabilité complète pour ne jamais être surpris par une panne.

Phase 2

Méthodologie d'Apprentissage

  1. 1

    Étude des 4 Golden Signals (Google SRE) : latency, traffic, errors, saturation

  2. 2

    Installation manuelle Prometheus + Node Exporter pour maîtriser le modèle pull et le format de métriques

  3. 3

    Dashboards Grafana itératifs : d'abord CPU/RAM, puis réseau, puis métriques applicatives

  4. 4

    Automatisation complète via playbooks Ansible (reproductibilité)

  5. 5

    Alertes Slack graduées (warning/critical) via Alertmanager

Phase 3

Défis Techniques

Explosion de métriques (50k+ time series)

Prometheus saturait en RAM. Solution : configuration scrape intervals, relabeling rules, filtrage des métriques non-essentielles.

Alertes bruyantes et non actionnables

30+ déclenchements/jour pour micro-fluctuations. Apprentissage : for duration, inhibition d'alertes, conservation des signaux critiques uniquement.

Dashboards illisibles (trop d'informations)

Premier dashboard ressemblait à un cockpit avion. Refonte UX : une métrique clé par panneau, hiérarchie visuelle claire.

Phase 4

Résultats

  • Stack Prometheus/Grafana couvrant 8+ serveurs, détection d'anomalies <2min

  • 3 dashboards : infrastructure, application, business metrics

  • Compétence transversale observabilité applicable à toute stack

  • Mindset : 'What gets measured gets managed'

Explore More

All Projects