Phase 6 : Tests de Bascule et de Continuité d’Activité


1. Objectif de ce Document

Ce document décrit les procédures de test pour valider les mécanismes de haute disponibilité (HA) et de reprise d’activité de notre infrastructure. Contrairement aux tests fonctionnels, l’objectif ici est de simuler des pannes et de vérifier que nos systèmes de secours prennent le relais comme prévu.

C’est le test ultime de la résilience de notre projet.

2. Le “Pourquoi” : L’Exercice d’Incendie

Une caserne de pompiers ne se contente pas de vérifier que le camion a de l’eau et que les lances fonctionnent. Elle organise régulièrement des exercices d’incendie en conditions réelles pour chronométrer le temps de réponse, vérifier que chaque pompier connaît son rôle et que la procédure est efficace.

Ces tests sont nos exercices d’incendie. Nous allons volontairement “casser” des parties de notre infrastructure pour :

  • Vérifier que les automatisations fonctionnent : Est-ce que le serveur Proxmox passif prend bien le relais ? Est-ce que le proxy de secours s’active ?
  • Mesurer l’impact réel : Combien de temps dure la coupure de service ? Est-elle de quelques secondes ou de plusieurs minutes ?
  • Valider notre plan de sauvegarde : Sommes-nous capables de restaurer une machine virtuelle cruciale et de la redémarrer dans un temps acceptable ?
  • Donner confiance : Pour un administrateur, il n’y a rien de plus rassurant que de savoir, pour l’avoir testé, que le système de secours fonctionne.

Attention

Ces tests provoquent des interruptions de service volontaires. Ils doivent être planifiés et réalisés pendant des fenêtres de maintenance, en dehors des heures de production.

3. Scénarios de Test de Haute Disponibilité (Failover)

ID TestScénario de PanneProcédure de SimulationRésultat AttenduStatut (OK/KO)
HA-01Panne d’un nœud Proxmox1. Lancez un ping -t vers une VM critique (ex: vm-win-dc-01) configurée en HA.
2. Identifiez le nœud Proxmox sur lequel elle tourne.
3. Sur Proxmox, simulez une panne de ce nœud (ex: reboot depuis le shell, ou débranchement physique).
La VM devient inaccessible (le ping s’arrête). Après 1-2 minutes, le Manager HA de Proxmox la redémarre sur un autre nœud du cluster. Le ping recommence à répondre. La perte de service est de moins de 3 minutes.
HA-02Panne du Pare-feu Actif1. Lancez un ping -t vers l’extérieur (ex: 8.8.8.8) depuis un poste client.
2. Débranchez le câble d’alimentation du pare-feu Zyxel actuellement “Actif”.
Le ping s’arrête. Après 5-10 secondes, le pare-feu “Passif” devient “Actif” et prend le relais. Le ping recommence à répondre. La perte d’accès Internet est quasi imperceptible pour l’utilisateur.
HA-03Panne d’un Proxy Squid1. Lancez un ping -t vers l’IP virtuelle du cluster proxy (10.0.20.254).
2. Identifiez le proxy MASTER (via ip a).
3. Arrêtez le conteneur du proxy MASTER.
Le ping s’arrête pour 1 ou 2 paquets. Un des nœuds BACKUP s’approprie l’IP virtuelle. Le ping reprend. La navigation Internet des utilisateurs n’est pas interrompue.

4. Scénarios de Test de Reprise d’Activité (Restauration)

ID TestScénario de “Catastrophe”Procédure de Simulation et RestaurationRésultat AttenduStatut (OK/KO)
DR-01Corruption Majeure d’une VM1. Choisissez une VM importante (ex: ct-deb-glpi-01).
2. Supprimez-la purement et simplement de Proxmox.
3. Restaurez-la depuis la dernière sauvegarde Proxmox Backup Server.
La restauration depuis PBS réussit. La VM redémarre. Le service GLPI est de nouveau accessible. L’opération complète (de la suppression à la remise en service) prend moins de 30 minutes. Les données sont celles de la dernière sauvegarde nocturne.
DR-02Suppression Accidentelle de Fichiers1. Dans Nextcloud, un utilisateur supprime un dossier important.
2. Videz la corbeille Nextcloud.
3. Contactez l’administrateur pour une restauration.
L’administrateur est capable de naviguer dans les sauvegardes du NAS, de retrouver le dossier supprimé à partir d’une sauvegarde antérieure (ex: celle d’il y a 4 heures) et de le restaurer à son emplacement d’origine. Les fichiers sont récupérés.

5. Conclusion du Projet

La réussite de l’ensemble des tests fonctionnels de la fiche Scénarios de Test et Validation et des tests de résilience de ce document valide la fin du projet technique.

L’infrastructure est déclarée conforme aux objectifs, fonctionnelle, sécurisée et résiliente. Elle est prête pour une mise en production et pour servir de support pédagogique.

Félicitations pour ce travail complet !