Phase 2 : Configuration de la Haute Disponibilité (HA)


1. Objectif de ce Document

Ce document explique comment activer et configurer la Haute Disponibilité (HA) pour nos machines virtuelles les plus critiques.

L’objectif est de s’assurer qu’en cas de défaillance matérielle d’un de nos serveurs physiques (un “nœud” Proxmox), les services essentiels qu’il héberge (comme nos contrôleurs de domaine) soient automatiquement redémarrés sur un autre serveur fonctionnel du cluster.

2. Le “Pourquoi” : L’Analogie du Cuisinier Fantôme

Nous reprenons notre analogie de la brigade de 6 cuisiniers (nos 6 nœuds Proxmox) qui travaillent dans une grande cuisine et partagent une bibliothèque de recettes commune (notre stockage NFS).

  • Le Chef de cuisine (le Manager HA de Proxmox) a une règle d’or : “Les plats les plus importants (nos VMs critiques) ne doivent JAMAIS s’arrêter d’être cuisinés !“.
  • Chaque cuisinier a un talkie-walkie pour dire “tout va bien” en permanence.
  • Soudain, le cuisinier n°3 ne répond plus au talkie-walkie. Il a fait un malaise.
  • Le Chef de cuisine attend un court instant pour être sûr que ce n’est pas une fausse alerte. Puis, il déclare : “Le cuisinier 3 est hors-jeu !“.
  • Il consulte son grand tableau : “Le cuisinier 3 préparait le plat principal ‘Active Directory’. C’est un plat critique !“.
  • Il crie alors un ordre général : “Qui est disponible ? Cuisinier 4, prends la recette ‘Active Directory’ dans la bibliothèque partagée et continue la préparation sur ton plan de travail. IMMÉDIATEMENT !“.

Le cuisinier 4 exécute l’ordre. Le plat principal est sauvé. Pour les clients du restaurant, la transition est presque invisible. C’est exactement ce que fait la Haute Disponibilité Proxmox.

Le Quorum : La Règle de la Majorité

Pour éviter le chaos (deux chefs qui pensent être aux commandes), le cluster ne prend de décision de HA que si une majorité des nœuds sont en ligne et d’accord. Avec nos 6 nœuds, il en faut au moins 4 pour que le système de HA fonctionne. C’est ce qu’on appelle le quorum.

3. Prérequis

  • Un cluster Proxmox fonctionnel avec au moins 3 nœuds (nous en avons 6, c’est parfait).
  • Le stockage partagé (NFS) doit être configuré et opérationnel. C’est indispensable, car c’est notre “bibliothèque de recettes” partagée. Une VM sur un stockage local ne peut pas être mise en haute disponibilité.
  • Les VMs critiques à protéger (par exemple, vm-win-dc-01) doivent avoir leurs disques virtuels stockés sur le partage NFS.

4. Procédure Pas-à-Pas

La configuration se fait en deux temps : d’abord on définit des “groupes” de serveurs, puis on applique la politique de HA aux VMs.

Étape 1 : Créer un Groupe de Haute Disponibilité

Un groupe permet de définir des priorités. On peut dire à Proxmox “J’aimerais que cette VM tourne de préférence sur ces serveurs-là”.

  1. Connectez-vous à l’interface web de Proxmox.
  2. Allez dans Datacenter > HA > Groups.
  3. Cliquez sur Create.
    • Group ID : Critical_Services
    • Comment : Groupe pour les services critiques (AD, etc.)
    • Nodes : Ajoutez tous nos nœuds (srv-bpr-proxmox-01 à 06). Vous pouvez assigner des priorités différentes. Par exemple, donnez une priorité plus élevée aux 3 premiers. Si un nœud à haute priorité tombe, Proxmox tentera de déplacer la VM vers un autre nœud à haute priorité avant d’envisager les autres. Pour commencer, laissons toutes les priorités identiques.
  4. Cliquez sur Add.

Étape 2 : Activer la Haute Disponibilité sur une VM

Prenons l’exemple de notre première VM contrôleur de domaine, vm-win-dc-01.

  1. Dans l’arborescence de gauche, sélectionnez la VM vm-win-dc-01.
  2. Cliquez sur l’onglet HA dans le panneau de gestion de la VM.
  3. Cliquez sur le bouton Add.
  4. Une boîte de dialogue apparaît :
    • Group : Sélectionnez le groupe Critical_Services que nous venons de créer.
    • Max Relocate : Laissez à 1. C’est le nombre maximum de tentatives de redémarrage.
    • Max Restart : Laissez à 1.
  5. Cliquez sur Add.

C’est tout ! La VM est maintenant sous la protection du Manager HA.

5. Points de Validation : La Simulation de Panne

La seule façon de savoir si un système de secours fonctionne est de le tester.

  1. Allez dans Datacenter > HA. Vous devriez voir votre VM vm-win-dc-01 listée.
    • Node : Indique le serveur sur lequel elle tourne actuellement (par ex: srv-bpr-proxmox-03).
    • State : Doit être started.
  2. Lancez un ping en continu depuis votre poste de travail vers l’adresse IP de la VM (ping 10.0.20.10 -t). Les pings doivent répondre.
  3. Simulation de la panne :
    • Connectez-vous à l’interface web du nœud qui héberge la VM (srv-bpr-proxmox-03).
    • Allez dans >_ Shell et tapez la commande reboot (ou, pour un test plus brutal et réaliste, débranchez physiquement son câble d’alimentation !).
  4. Observation :
    • Retournez dans la vue Datacenter > HA. Le statut du nœud srv-bpr-proxmox-03 va passer en unknown ou rouge.
    • Les pings vers votre VM vont s’arrêter.
    • Après un délai (environ 1 à 2 minutes), le Manager HA va déclencher la procédure de “recovery”.
    • Vous verrez l’état de la VM passer à recovering, puis started sur un nouveau nœud (par ex: srv-bpr-proxmox-05).
    • Les pings vers 10.0.20.10 vont recommencer à répondre.

Si vous observez ce comportement, votre configuration de Haute Disponibilité est un succès. Vos services critiques sont maintenant protégés contre les pannes matérielles.


La Phase 2 est terminée. Notre plateforme de virtualisation est non seulement installée et configurée, mais elle est aussi robuste, résiliente et intégrée à notre système de gestion central. Nous sommes prêts à passer à la Phase 3 : Déploiement des Services Microsoft.