Proxmox VE Bonnes pratiques : checklist stabilité et sécurité

En pratique, les systèmes cassent souvent non pas par « manque de fonctionnalités » mais par processus et habitudes. Cette checklist peut servir de lignes directrices au quotidien — chaque piège évité est une fois de plus où vous partez à l'heure.

Pratiques recommandées

1) La sauvegarde doit aller de pair avec des exercices de restauration

Avoir un fichier de sauvegarde ne signifie pas que vous pouvez vraiment restaurer. Testez une restauration périodiquement — vérifiez que ça démarre et que les services sont sains. Une sauvegarde jamais testée, c'est comme une paire de chaussures neuves jamais essayées : on découvre qu'elles font mal au moment du combat.

2) Snapshot avant les changements majeurs

Avant de mettre à jour les paquets, modifier le réseau ou toucher au matériel, faites un snapshot d'abord. Si ça dérape, retour arrière et évitez la spirale de réinstallation.

qm snapshot 100 before-maintenance

3) Planifier la stratégie de mise à jour et d'abonnement

En production : savoir quel environnement est mis à jour en premier et lequel plus tard. Comprendre votre abonnement et les sources de paquets — n'ajoutez pas de dépôts tiers au hasard.

# Vérifier le statut de l'abonnement
pvesubscription get

4) Segmentation réseau et exposition minimale

Gestion, stockage et trafic métier : séparez quand vous le pouvez pour éviter les interférences mutuelles et la propagation latérale. Gardez le scénario « une chose casse tout » pour le cinéma.

5) Accès par rôles et base du pare-feu

Ne faites pas partager un seul compte root à tout le monde. Créez des comptes par rôle, activez la 2FA quand c'est possible, et n'ouvrez que les ports nécessaires dans le pare-feu. Mot de passe faible + privilèges élevés = se promener nu sur Internet.

Pièges courants

Piège 1 : Superposer du RAID matériel sur ZFS/Ceph

ZFS et Ceph doivent gérer les disques directement. Ajouter une couche RAID matériel par-dessus réduit de moitié leurs super-pouvoirs — protection des données et observabilité en pâtissent.

Piège 2 : Attendre la HA avec un seul nœud

La HA exige plusieurs nœuds capables de se relayer. Avec une seule machine, ne rêvez pas de haute disponibilité — c'est un « point de défaillance unique qui attend son heure ».

Piège 3 : Supprimer l'image de base d'un clone lié

Les clones liés dépendent du disque parent. Supprimez le parent et toutes les VM liées en dessous cassent — comme retirer la brique du bas d'une tour.

Piège 4 : Pas de surveillance de capacité

Quand local-lvm ou le stockage de sauvegarde est plein, les écritures échouent et les jobs cassent. Surveillez tôt, nettoyez tôt — n'attendez pas une alerte à 2 h du matin pour vous lever éteindre le feu.

Piège 5 : Mots de passe faibles et permissions excessives

Si l'interface de gestion est exposée sur Internet, mots de passe faibles et permissions trop larges sont une invitation ouverte. Changez ce qu'il faut changer, restreignez ce qu'il faut restreindre.

Suivre cette checklist ne garantit pas zéro panne, mais vous évitera bien des détours inutiles. En cas de doute, consultez la doc et les forums officiels — la plupart des pièges ont déjà été rencontrés par d'autres avant vous. Bonne chance pour l'exploitation — que vos VM tournent bien et que vos sauvegardes restaurent toujours ! 🦦