Proxmox VE Avancé : cluster, HA, Ceph et API

Quand votre environnement passe d'une machine à plusieurs machines, l'exploitation passe de « tant que ça tourne » à « disponibilité, scalabilité et automatisation ». Cet article vous fait passer du donjon en solo au raid en groupe.

Construire un cluster

Cas d'usage : pour une gestion centralisée, la planification inter-nœuds et la migration — commencez par un cluster.

# Créer un cluster sur le premier nœud
pvecm create my-cluster
 
# Joindre les autres nœuds (remplacez par l'IP du maître)
pvecm add <ip-maître-cluster>
 
# Vérifier le statut
pvecm status

Une fois le cluster en place, évitez de renommer les hostnames des nœuds ; assurez-vous que le DNS, la synchronisation horaire et le réseau fonctionnent avant de rejoindre — sinon vous aurez des problèmes bizarres.

Configuration HA (haute disponibilité)

Cas d'usage : si un nœud tombe, les VM peuvent démarrer automatiquement sur un autre nœud sans interruption de service.

Prérequis :

Un cluster existant
Disques des VM sur un stockage partagé
Un mécanisme de fencing correct pour éviter le split-brain (deux nœuds qui se croient tous deux leaders)

# Mettre la VM 100 sous gestion HA
ha-manager add vm:100 --maxrestart 3 --maxrelocate 5

Quand la HA est bien configurée, les utilisateurs ne s'aperçoivent presque pas des pannes d'un nœud — comme un chat qui a toujours un coin de repli pour dormir.

Stockage hyperconvergé Ceph

Cas d'usage : plusieurs nœuds ont besoin d'un stockage partagé à haute disponibilité — Ceph peut gérer les deux.

Prérequis recommandés :

Au moins 3 nœuds (Ceph n'aime pas les points uniques)
Plusieurs disques dédiés par nœud
Un réseau de stockage dédié est encore mieux

# Initialiser Ceph
pveceph init --network 10.0.0.0/24
 
# Créer un OSD pour chaque disque de données
pveceph osd create /dev/sdX
 
# Créer un pool et l'attacher à PVE
pveceph pool create vm-data --add_storages

Ceph fonctionne mieux avec des disques bruts directement — ne superposez pas du RAID matériel par-dessus. Cela affaiblit à la fois la protection des données et l'observabilité que Ceph fournit.

Réplication du stockage

Cas d'usage : redondance inter-nœuds pour un basculement rapide.

pvesr create-local-job 100 local-zfs remote-zfs --schedule "0 2 * * *"

API et intégration pour l'automatisation

Cas d'usage : opérer via des scripts, la CI/CD ou intégrer avec d'autres plateformes. Utilisez des jetons API plutôt que le mot de passe root partout.

# Lister les VM avec un jeton API
curl -k \
  -H "Authorization: PVEAPIToken=user@realm!tokenid=secret" \
  "https://<IP-PVE>:8006/api2/json/nodes/<node>/qemu"

Une fois l'automatisation en place, le travail répétitif part dans les scripts — vous vous occupez du café et du chat.

Prochaines étapes

Avec les capacités avancées maîtrisées, appliquez un ensemble de lignes directrices pour réduire les risques : 👉 Bonnes pratiques