[Proxmox VE] 클러스터 HA 구축 실패 사례 분석 및 교훈

안녕하세요, 13년차의 서버실입니다. 오늘은 제가 홈랩에서 Proxmox VE(Virtual Environment) 클러스터로 고가용성(High Availability, HA) 환경을 구축하다가 겪었던 삽질 경험을 솔직하게 풀어보려고 합니다. 사실 처음엔 'Proxmox HA 클러스터? 별거 아니겠지!' 하고 덤볐다가 제대로 혼쭐이 났거든요. 여러분은 저처럼 뼈아픈 실패를 겪지 않으시길 바라는 마음에서, 저의 삽질 과정과 해결책을 공유해 드립니다.

Proxmox VE HA 클러스터의 이상적인 구성 다이어그램입니다. 이렇게만 되면 얼마나 좋을까요? 😅

Proxmox HA 클러스터, 왜 필요할까요?

Proxmox VE 클러스터는 여러 Proxmox 노드를 하나로 묶어서 관리하고, 특히 HA 기능을 활용하면 특정 노드에 장애가 발생했을 때 그 노드에서 실행 중이던 가상 머신(Virtual Machine, VM)이나 컨테이너(Container, LXC)가 자동으로 다른 정상 노드로 옮겨가서 서비스 연속성을 유지해 줍니다. 쉽게 말해, 서버 한 대가 고장 나도 서비스는 계속 돌아가게 해주는 아주 고마운 기능이죠. 이 HA를 가능하게 하는 핵심 기술 중 하나가 바로 Corosync(코로싱크)라는 분산 합의 프로토콜입니다. Corosync는 클러스터 내의 모든 노드가 서로의 상태를 감시하고, 클러스터의 '상태'에 대해 합의를 이룰 수 있도록 돕는 역할을 해요. 모든 노드가 같은 정보를 보고 있다는 확신이 있어야만, 안전하게 HA 결정을 내릴 수 있거든요.

홈랩에 Proxmox 클러스터 구축하기 (feat. 2노드의 함정)

처음에는 Proxmox 클러스터 구성 자체는 어렵지 않았어요. 각 노드에 Proxmox VE를 설치하고, 터미널에서 pvecm create 명령으로 클러스터를 만들고, 다른 노드에서 pvecm add 명령으로 합류시키면 끝! 정말 간단하더라고요. 홈랩이니 일단 물리 서버 두 대로 시작했습니다. (나중에 이게 문제의 씨앗이 될 줄은 몰랐죠 😂)

# 첫 번째 노드에서 클러스터 생성
pvecm create my-ha-cluster

# 두 번째 노드에서 클러스터 합류 (첫 번째 노드의 IP 입력)
pvecm add 192.168.1.10 --ring0_addr 192.168.1.11 # 192.168.1.10은 첫 번째 노드, 192.168.1.11은 두 번째 노드의 Corosync 통신용 IP

이렇게 두 노드를 클러스터로 묶고, 공유 스토리지를 NFS(Network File System)로 연결했어요. VM 디스크를 이 NFS에 저장하고, 몇몇 VM에 HA 설정을 활성화했습니다. '이제 한 대 꺼져도 문제없겠지?' 하는 생각에 뿌듯했죠. 그러나 현실은... 달랐습니다.

Proxmox VE 웹 UI에서 HA 설정을 활성화하는 화면입니다. 저도 처음엔 이 옵션만 믿었죠.

⚠️ 스플릿 브레인(Split-Brain) 발생과 삽질 해결 과정

문제는 바로 여기서 발생했습니다. 제가 한 노드의 전원을 강제로 내려봤어요. HA가 잘 작동하는지 보려고요. 그런데 VM이 다른 노드로 넘어가지 않는 겁니다! 😱 아니, 이게 무슨 일인가 싶어서 Proxmox 웹 UI를 확인해보니, 꺼진 노드는 'offline' 상태인데, VM은 여전히 'stopped' 상태로 남아있는 거예요. 심지어 나중에 다시 켜보니, 양쪽 노드에서 같은 VM이 켜져 있는 기괴한 상황까지 벌어졌습니다. 네, 바로 Split-Brain(스플릿 브레인) 현상이었죠.

Split-Brain(스플릿 브레인)은 분산 시스템에서 클러스터 노드들이 서로 통신하지 못하게 되어, 각 노드가 클러스터의 '일부'가 마치 전체 클러스터인 것처럼 독자적인 결정을 내리는 상황을 말합니다. 이 경우, 두 노드가 같은 자원(예: 같은 VM)을 동시에 점유하려 들면서 데이터 손상이나 서비스 중단 같은 심각한 문제가 발생할 수 있어요. Proxmox 클러스터에서는 Corosync가 노드 간의 합의를 담당하는데, 통신 장애가 생기면 이 합의가 깨지면서 스플릿 브레인이 발생할 수 있는 거죠.

원인을 찾아보니, 제 클러스터는 노드가 2개였습니다. Corosync는 클러스터의 '쿼럼(Quorum)'이라는 개념을 사용해서 합의를 이룹니다. 쿼럼(Quorum)은 클러스터가 정상적으로 작동하기 위해 필요한 최소한의 투표 수(votes)를 의미해요. 보통 클러스터 노드 수의 과반수(N/2 + 1)를 요구합니다. 2개 노드 클러스터에서는 쿼럼이 2가 됩니다. 즉, 두 노드가 모두 살아있어야만 쿼럼이 충족되는 거죠. 한 노드가 죽으면 쿼럼이 깨지면서 클러스터 전체가 멈춰버리는 겁니다. HA가 작동할 리가 없죠.

이게 바로 '2노드 클러스터의 딜레마'였습니다. 그래서 Proxmox 문서나 여러 커뮤니티를 찾아보니, 최소 3개 노드를 권장하더라고요. 3개 노드 클러스터라면 쿼럼은 2가 됩니다. 한 노드가 죽어도 나머지 두 노드가 살아있으면 쿼럼이 유지되므로 HA 기능을 정상적으로 사용할 수 있습니다. '아, 그래서 다들 3노드, 5노드 하는구나!' 하고 무릎을 탁 쳤습니다. 홈랩에 놀고 있는 미니 PC 한 대를 추가해서 3노드 클러스터로 재구성하기로 결정했어요.

# (예시) 기존 2노드 클러스터에서 한 노드를 제거하고 3노드 클러스터로 재구성하는 과정
# 1. HA 서비스 비활성화 (모든 VM/LXC)
# 2. 클러스터 노드에서 VM/LXC 모두 다른 노드로 마이그레이션 또는 종료
# 3. 제거할 노드에서 클러스터 탈퇴 (pvecm delnode [노드이름])
# 4. 새로 추가할 노드에 Proxmox 설치 후 pvecm add [기존 노드 IP]
# 5. HA 설정 재활성화 및 테스트

실제로 이렇게 3노드 클러스터로 재구성하고 다시 테스트해보니, 드디어 HA가 제대로 작동하더라고요! 한 노드의 전원을 강제로 내려도, 다른 노드에서 VM이 정상적으로 기동되는 것을 확인했습니다. 🎉

드디어 3노드 클러스터에서 HA가 정상 작동하는 모습입니다. 노드 중 하나가 오프라인이 되어도 VM이 다른 노드에서 잘 살아났어요!

검증 및 결과: 이제야 안심이 되네요

3노드 클러스터로 재구성한 후, 여러 시나리오로 HA 기능을 검증해봤습니다.

노드 강제 종료: 특정 노드의 전원을 뽑아보니, 약 1~2분 내에 해당 노드에 할당된 HA VM들이 다른 정상 노드에서 자동으로 시작되었습니다.
네트워크 단절: Corosync 네트워크 케이블을 뽑아보니, 역시 쿼럼이 깨지지 않는 상황에서는 HA가 정상적으로 작동했습니다. (물론 모든 네트워크가 단절되면 답이 없지만요 😅)
스토리지 장애 시나리오: 공유 NFS 스토리지가 끊겼을 때는 HA가 작동하지 않았습니다. 이건 당연한 결과죠. VM 디스크를 읽을 수 없으니 다른 노드로 넘어가도 소용이 없거든요. 그래서 공유 스토리지의 고가용성도 중요합니다. (다음 글에서 다룰 예정입니다!)

이렇게 직접 테스트하고 나서야 비로소 '아, 이게 진짜 고가용성이구나!' 하고 안심할 수 있었죠. 단순히 설정 몇 개 한다고 되는 게 아니더라고요.

2노드와 3노드 Proxmox HA 클러스터의 쿼럼 및 장애 허용 개수 비교입니다. 숫자의 중요성을 다시 한번 깨닫습니다.

마무리하며 얻은 교훈

이번 Proxmox HA 클러스터 구축 삽질을 통해 저는 중요한 교훈을 얻었습니다.

쿼럼의 중요성: 분산 시스템, 특히 HA 클러스터에서는 쿼럼(Quorum)이라는 개념을 반드시 이해하고 있어야 합니다. 노드 수에 따라 쿼럼이 어떻게 변하는지, 그리고 쿼럼이 깨졌을 때 어떤 문제가 발생하는지 정확히 알아야 해요.
최소 3개 노드: Proxmox VE HA 클러스터를 구성할 때는 스플릿 브레인을 방지하고 안정적인 HA를 위해 최소 3개 이상의 노드로 시작하는 것이 좋습니다. 2노드 클러스터는 한 노드 장애 시 쿼럼 손실로 클러스터 전체가 멈출 가능성이 매우 높습니다.
실제 테스트의 중요성: '말로는 쉽지'라는 말을 많이 하지만, 실제로 직접 장애 상황을 만들어서 테스트해보지 않으면 예상치 못한 문제에 직면할 수 있습니다. 저처럼요. 😅

물론 2노드 클러스터에서도 쿼럼 디바이스(QDevice) 같은 것을 활용하여 쿼럼을 유지하는 방법이 있긴 합니다만, 복잡도가 올라가고 추가적인 리소스가 필요해서 홈랩에서는 3개 노드가 가장 심플하고 안정적인 구성이라고 생각합니다.

여러분도 혹시 Proxmox HA 클러스터를 구축할 계획이 있으시다면, 저의 삽질 경험을 참고하셔서 안정적인 환경을 만드시길 바랍니다. 다음 글에서는 Proxmox 클러스터와 함께 사용할 수 있는 고가용성 공유 스토리지 구성에 대해 다뤄보겠습니다. 궁금한 점이 있다면 언제든지 댓글로 남겨주세요! 😊

'IT > Proxmox' 카테고리의 다른 글

[Proxmox] Proxmox Backup Server (PBS) vs. 스크립트 백업: 홈랩 비용 효율성 비교 (0)	2026.05.27
[Proxmox] GPU 패스스루: 가상 머신 성능 문제 디버깅하기 (0)	2026.05.25
[Proxmox] ZFS 스토리지 1년 운영 회고: 성능, 안정성, 그리고 후회되는 점 (0)	2026.05.25
[Proxmox VE] Proxmox HA 클러스터 구축: 무중단 서비스 운영 가이드 (0)	2026.05.20
[Proxmox] Proxmox LXC 컨테이너 vs VM: 홈랩 환경 최적화 비교 분석 (0)	2026.05.19
[Proxmox] Proxmox Backup Server (PBS) 완벽 가이드: 설치부터 백업/복구 전략까지 (0)	2026.05.18

13년차의 서버실

[Proxmox] Proxmox VE 클러스터 고가용성(HA) 구축: 실패 사례 분석 및 교훈

목차

[Proxmox VE] 클러스터 HA 구축 실패 사례 분석 및 교훈

Proxmox HA 클러스터, 왜 필요할까요?

홈랩에 Proxmox 클러스터 구축하기 (feat. 2노드의 함정)

⚠️ 스플릿 브레인(Split-Brain) 발생과 삽질 해결 과정

검증 및 결과: 이제야 안심이 되네요

마무리하며 얻은 교훈

'IT > Proxmox' 카테고리의 다른 글

티스토리툴바

[Proxmox] Proxmox VE 클러스터 고가용성(HA) 구축: 실패 사례 분석 및 교훈

목차

[Proxmox VE] 클러스터 HA 구축 실패 사례 분석 및 교훈

Proxmox HA 클러스터, 왜 필요할까요?

홈랩에 Proxmox 클러스터 구축하기 (feat. 2노드의 함정)

⚠️ 스플릿 브레인(Split-Brain) 발생과 삽질 해결 과정

검증 및 결과: 이제야 안심이 되네요

마무리하며 얻은 교훈

📚 함께 읽으면 좋은 글

'IT > Proxmox' 카테고리의 다른 글

관련글

티스토리툴바