Phase 2 : Configuration de la Haute Disponibilité (HA)
1. Objectif de ce Document
Ce document explique comment activer et configurer la Haute Disponibilité (HA) pour nos machines virtuelles les plus critiques.
L’objectif est de s’assurer qu’en cas de défaillance matérielle d’un de nos serveurs physiques (un “nœud” Proxmox), les services essentiels qu’il héberge (comme nos contrôleurs de domaine) soient automatiquement redémarrés sur un autre serveur fonctionnel du cluster.
2. Le “Pourquoi” : L’Analogie du Cuisinier Fantôme
Nous reprenons notre analogie de la brigade de 6 cuisiniers (nos 6 nœuds Proxmox) qui travaillent dans une grande cuisine et partagent une bibliothèque de recettes commune (notre stockage NFS).
- Le Chef de cuisine (le Manager HA de Proxmox) a une règle d’or : “Les plats les plus importants (nos VMs critiques) ne doivent JAMAIS s’arrêter d’être cuisinés !“.
- Chaque cuisinier a un talkie-walkie pour dire “tout va bien” en permanence.
- Soudain, le cuisinier n°3 ne répond plus au talkie-walkie. Il a fait un malaise.
- Le Chef de cuisine attend un court instant pour être sûr que ce n’est pas une fausse alerte. Puis, il déclare : “Le cuisinier 3 est hors-jeu !“.
- Il consulte son grand tableau : “Le cuisinier 3 préparait le plat principal ‘Active Directory’. C’est un plat critique !“.
- Il crie alors un ordre général : “Qui est disponible ? Cuisinier 4, prends la recette ‘Active Directory’ dans la bibliothèque partagée et continue la préparation sur ton plan de travail. IMMÉDIATEMENT !“.
Le cuisinier 4 exécute l’ordre. Le plat principal est sauvé. Pour les clients du restaurant, la transition est presque invisible. C’est exactement ce que fait la Haute Disponibilité Proxmox.
Le Quorum : La Règle de la Majorité
Pour éviter le chaos (deux chefs qui pensent être aux commandes), le cluster ne prend de décision de HA que si une majorité des nœuds sont en ligne et d’accord. Avec nos 6 nœuds, il en faut au moins 4 pour que le système de HA fonctionne. C’est ce qu’on appelle le quorum.
3. Prérequis
- Un cluster Proxmox fonctionnel avec au moins 3 nœuds (nous en avons 6, c’est parfait).
- Le stockage partagé (NFS) doit être configuré et opérationnel. C’est indispensable, car c’est notre “bibliothèque de recettes” partagée. Une VM sur un stockage local ne peut pas être mise en haute disponibilité.
- Les VMs critiques à protéger (par exemple,
vm-win-dc-01) doivent avoir leurs disques virtuels stockés sur le partage NFS.
4. Procédure Pas-à-Pas
La configuration se fait en deux temps : d’abord on définit des “groupes” de serveurs, puis on applique la politique de HA aux VMs.
Étape 1 : Créer un Groupe de Haute Disponibilité
Un groupe permet de définir des priorités. On peut dire à Proxmox “J’aimerais que cette VM tourne de préférence sur ces serveurs-là”.
- Connectez-vous à l’interface web de Proxmox.
- Allez dans
Datacenter > HA > Groups. - Cliquez sur
Create.- Group ID :
Critical_Services - Comment :
Groupe pour les services critiques (AD, etc.) - Nodes : Ajoutez tous nos nœuds (
srv-bpr-proxmox-01à06). Vous pouvez assigner des priorités différentes. Par exemple, donnez une priorité plus élevée aux 3 premiers. Si un nœud à haute priorité tombe, Proxmox tentera de déplacer la VM vers un autre nœud à haute priorité avant d’envisager les autres. Pour commencer, laissons toutes les priorités identiques.
- Group ID :
- Cliquez sur
Add.
Étape 2 : Activer la Haute Disponibilité sur une VM
Prenons l’exemple de notre première VM contrôleur de domaine, vm-win-dc-01.
- Dans l’arborescence de gauche, sélectionnez la VM
vm-win-dc-01. - Cliquez sur l’onglet
HAdans le panneau de gestion de la VM. - Cliquez sur le bouton
Add. - Une boîte de dialogue apparaît :
- Group : Sélectionnez le groupe
Critical_Servicesque nous venons de créer. - Max Relocate : Laissez à
1. C’est le nombre maximum de tentatives de redémarrage. - Max Restart : Laissez à
1.
- Group : Sélectionnez le groupe
- Cliquez sur
Add.
C’est tout ! La VM est maintenant sous la protection du Manager HA.
5. Points de Validation : La Simulation de Panne
La seule façon de savoir si un système de secours fonctionne est de le tester.
- Allez dans
Datacenter > HA. Vous devriez voir votre VMvm-win-dc-01listée.- Node : Indique le serveur sur lequel elle tourne actuellement (par ex:
srv-bpr-proxmox-03). - State : Doit être
started.
- Node : Indique le serveur sur lequel elle tourne actuellement (par ex:
- Lancez un
pingen continu depuis votre poste de travail vers l’adresse IP de la VM (ping 10.0.20.10 -t). Les pings doivent répondre. - Simulation de la panne :
- Connectez-vous à l’interface web du nœud qui héberge la VM (
srv-bpr-proxmox-03). - Allez dans
>_ Shellet tapez la commandereboot(ou, pour un test plus brutal et réaliste, débranchez physiquement son câble d’alimentation !).
- Connectez-vous à l’interface web du nœud qui héberge la VM (
- Observation :
- Retournez dans la vue
Datacenter > HA. Le statut du nœudsrv-bpr-proxmox-03va passer enunknownou rouge. - Les pings vers votre VM vont s’arrêter.
- Après un délai (environ 1 à 2 minutes), le Manager HA va déclencher la procédure de “recovery”.
- Vous verrez l’état de la VM passer à
recovering, puisstartedsur un nouveau nœud (par ex:srv-bpr-proxmox-05). - Les pings vers
10.0.20.10vont recommencer à répondre.
- Retournez dans la vue
Si vous observez ce comportement, votre configuration de Haute Disponibilité est un succès. Vos services critiques sont maintenant protégés contre les pannes matérielles.
La Phase 2 est terminée. Notre plateforme de virtualisation est non seulement installée et configurée, mais elle est aussi robuste, résiliente et intégrée à notre système de gestion central. Nous sommes prêts à passer à la Phase 3 : Déploiement des Services Microsoft.