Proxmox VE 베스트 프랙티스: 안정성과 보안 체크리스트
실제 운영에서 시스템을 망가뜨리는 건 대부분 "기능이 부족해서"가 아니라 프로세스와 습관 때문입니다. 아래 체크리스트는 일상 지침으로 바로 사용할 수 있습니다 — 함정 하나를 피할 때마다 정시 퇴근이 한 번 더 가능해집니다.
권장 사항
1) 백업에는 반드시 복원 테스트를 병행
백업 파일이 있다고 실제로 복원할 수 있다는 의미가 아닙니다. 주기적으로 샘플 복원을 테스트하고 부팅 가능하며 서비스가 정상인지 확인하세요. 테스트하지 않은 백업은 신어보지 않은 새 신발과 같습니다 — 실전에서야 발이 아프다는 걸 알게 됩니다.
2) 중요한 변경 전에 스냅샷
패키지 업데이트·네트워크 변경·하드웨어 조작 전에 먼저 스냅샷을 찍으세요. 문제가 생기면 롤백하면 됩니다 — 재설치의 지옥을 피할 수 있습니다.
qm snapshot 100 before-maintenance3) 올바른 업데이트와 구독 전략
프로덕션 환경에서 명확히 해두세요: 어떤 환경을 먼저 업데이트하고 나중에 할지. 구독과 패키지 소스도 파악하고, 무분별하게 서드파티 저장소를 추가하지 마세요.
# 구독 상태 확인
pvesubscription get4) 네트워크 분리와 최소 노출
관리·스토리지·비즈니스 트래픽은 가능한 한 분리해 상호 간섭과 횡적 확산을 방지하세요. "하나가 터지면 전부 터진다"는 시나리오는 영화 속에 두세요.
5) 역할 기반 접근과 방화벽 기준선
모두가 하나의 root 계정을 공유하지 마세요. 역할 계정을 만들고, 가능하면 2FA를 활성화하고, 방화벽에서 필요한 포트만 열어두세요. 약한 비밀번호 + 높은 권한 = 인터넷에서 알몸으로 걸어다니는 것.
일반적인 함정
함정 1: ZFS/Ceph 위에 하드웨어 RAID 쌓기
ZFS와 Ceph는 디스크를 직접 관리해야 합니다. 하드웨어 RAID 레이어를 위에 쌓으면 데이터 보호와 관측성 모두 절반으로 줄어듭니다.
함정 2: 단일 노드에서 HA 기대
HA는 여러 노드가 서로 인계할 수 있다는 전제 위에 있습니다. 머신이 하나뿐이라면 고가용성을 기대하지 마세요 — 그건 "단일 장애 지점이 발생하길 기다리는" 상태입니다.
함정 3: 링크드 클론의 베이스 이미지 삭제
링크드 클론은 부모 디스크에 의존합니다. 부모를 삭제하면 그 아래 링크된 VM들이 모두 망가집니다 — 블록 쌓기에서 맨 아래 블록을 빼내는 것처럼.
함정 4: 용량 모니터링 안 하기
local-lvm이나 백업 스토리지가 가득 차면 쓰기가 실패하고 작업이 망가집니다. 미리 모니터링하고 미리 정리 — 새벽 2시에 알람이 울린 후 대응하는 일은 피하세요.
함정 5: 약한 비밀번호와 과도한 권한
관리 인터페이스가 외부에 공개되면 약한 비밀번호와 전면 개방 권한은 무단 접근을 초대합니다. 바꿔야 할 것은 바꾸고, 제한해야 할 것은 제한하세요.
이 체크리스트를 따른다고 무결고장을 보장하진 않지만 적어도 많은 우회로를 피할 수 있습니다. 막히면 공식 문서와 포럼을 확인하세요 — 대부분의 함정은 이미 누군가가 밟아봤습니다. 운영이 순탄하기를, VM이 잘 돌고 백업도 항상 복원되기를 바랍니다! 🦦