SERVEUR HAUTE DISPO
Cluster de bases de données PostgreSQL avec réplication et failover automatique.
Contexte
BDD PostgreSQL single point of failure = downtime complet si panne. Apprentissage + implémentation haute disponibilité : concept vu en théorie, jamais pratiqué.
Méthodologie d'Apprentissage
- 1
Étude streaming replication + WAL shipping PostgreSQL
- 2
Lab 3 VMs : primary + replica sync + replica async
- 3
Configuration Patroni pour orchestration failover automatique
- 4
Automation complète Ansible playbooks (reproductibilité)
- 5
Simulation pannes (kill primary, coupure réseau) validant failover réel
Défis Techniques
Split-brain (deux primaries lors partition réseau)
Solution : quorum + watchdog Patroni avec etcd comme arbitre.
Lag réplication async (retard pendant pics)
Tuning WAL parameters + monitoring lag avec alertes Prometheus.
Restauration ancien primary post-failover
Ancien primary ne pouvait pas rejoindre cluster. Solution : pgrewind (resync sans rebuild complet).
Résultats
Cluster PostgreSQL 3 noeuds + failover <10s
RPO 0 sur replica sync (zéro perte données)
Playbooks Ansible permettent recréation cluster en 20min
Compréhension mécanismes réplication + consensus distribué
Explore More