본문 바로가기
IT/Proxmox

[Proxmox] Proxmox VE & Ceph 분산 스토리지 1년 회고: 안정성, 성능, 교훈

by 수누다 2026. 6. 8.

Proxmox VE & Ceph 분산 스토리지 1년 회고: 안정성, 성능, 교훈

안녕하세요, 13년차의 서버실 주인장입니다. 오랜만에 홈랩(HomeLab) 이야기를 들고 왔네요. 오늘은 제가 지난 1년간 Proxmox VECeph를 조합해서 분산 스토리지를 구축하고 운영했던 경험을 회고해보려고 합니다. Proxmox Ceph 조합은 홈랩에서 강력한 스토리지 솔루션을 구축하려는 분들께 정말 매력적인 선택지인데요, 저 역시 안정성과 성능 두 마리 토끼를 잡고 싶어서 이 조합에 도전했었죠. 결과는 어땠을까요? 기대했던 만큼의 성과를 얻었을까요, 아니면 삽질의 연속이었을까요? 솔직한 제 경험담을 지금부터 풀어보겠습니다.

혹시 여러분도 저처럼 늘어나는 가상 머신(VM, Virtual Machine)과 컨테이너(Container) 때문에 스토리지 확장에 대한 고민이 많으셨나요? 단일 서버의 저장 공간으로는 한계가 있고, 그렇다고 비싼 네트워크 스토리지(NAS, Network Attached Storage)를 여러 대 들이자니 배보다 배꼽이 더 커지는 상황. 저도 그랬습니다. 그래서 저렴한 하드웨어로 고가용성(High Availability)과 확장성(Scalability)을 동시에 잡을 수 있는 방법을 찾다가 분산 스토리지(Distributed Storage) 솔루션인 Ceph를 Proxmox VE 클러스터 위에 얹어보기로 마음먹었죠.

왜 Proxmox VE와 Ceph를 선택했을까요? (컨셉 설명)

제가 Proxmox VE와 Ceph 조합에 끌렸던 가장 큰 이유는 바로 시너지 효과 때문입니다. 쉽게 말해, Proxmox VE는 강력한 가상화 플랫폼이고, Ceph는 데이터를 여러 서버에 나눠 저장하면서 안정성과 성능을 높이는 시스템이거든요. 이 둘이 만나면 어떤 일이 벌어질까요?

  • Proxmox VE (프록스목스 VE): 리눅스 기반의 오픈소스 가상화 플랫폼입니다. VM과 컨테이너를 쉽게 관리할 수 있고, 여러 Proxmox 서버를 묶어 클러스터(Cluster)를 구성하면 VM을 서버 간에 자유롭게 이동시키거나(Live Migration, 라이브 마이그레이션), 한 서버에 문제가 생겨도 다른 서버에서 자동으로 VM을 재시작하는 고가용성 기능을 구현할 수 있습니다.
  • Ceph (쎄프): 역시 오픈소스 분산 스토리지 시스템입니다. 데이터를 여러 노드에 분산해서 저장하기 때문에 한두 개의 저장 장치에 문제가 생겨도 데이터가 손실될 염려가 적고, 여러 노드의 자원을 활용해서 높은 입출력 성능(IOPS, Input/Output Operations Per Second)을 낼 수 있습니다. 오브젝트 스토리지(Object Storage), 블록 스토리지(Block Storage), 파일 시스템(File System)까지 다양한 인터페이스를 제공하죠.

이 둘을 함께 사용하면 Proxmox VE 클러스터를 구성하는 서버들의 로컬 디스크를 묶어서 하나의 거대한 Ceph 스토리지 풀(Storage Pool)로 만들 수 있습니다. 그렇게 되면 VM 디스크 이미지를 이 Ceph 스토리지에 저장하고, 어떤 Proxmox 서버에서든 해당 VM을 실행할 수 있게 되는 거죠. 한 서버에 문제가 생겨도 다른 서버가 Ceph 스토리지에 접근해서 VM을 바로 가져다 쓸 수 있으니, 고가용성(High Availability) 측면에서 정말 매력적이었어요.

Proxmox VE와 Ceph 분산 스토리지 클러스터의 전체 아키텍처 다이어그램

Proxmox VE 서버 3대와 Ceph 클러스터가 통합된 홈랩 아키텍처 다이어그램입니다. 각 Proxmox 노드가 Ceph OSD를 호스팅하며, VM들이 이 분산 스토리지 위에 위치합니다.

제 홈랩에 Ceph 클러스터 구축하기: 삽질의 시작과 과정

솔직히 처음엔 "오픈소스니까 뭐, 설치하면 되겠지!" 하는 안일한 생각도 좀 있었습니다. 13년차 엔지니어라도 새로운 기술 앞에서는 겸손해야 한다는 걸 다시 한번 깨달았죠. 😅

하드웨어 구성: 어떤 장비로 시작했을까?

저는 최소 3개의 노드(Node)로 구성된 클러스터를 목표로 했습니다. Ceph는 복제(Replication)를 통해 데이터 안정성을 확보하는데, 보통 3-복제(3-replication)를 많이 쓰거든요. 그래서 3대의 미니 PC를 준비했습니다. 각 PC는 인텔 NUC 같은 저전력 모델에 16GB RAM, 그리고 데이터를 저장할 SSD를 여러 개 장착했어요. 처음에는 1GbE(기가비트 이더넷) 네트워크로 시작했지만, 나중에는 10GbE(텐 기가비트 이더넷)로 업그레이드했습니다. Ceph는 네트워크 대역폭을 정말 많이 쓰는 친구거든요!

Proxmox VE 설치 및 클러스터 구성

Proxmox VE 설치는 생각보다 간단합니다. ISO 이미지를 USB에 구워서 각 노드에 설치하고, 웹 UI에 접속해서 몇 번의 클릭만으로 Proxmox 클러스터를 구성할 수 있죠. 이때 쿼럼(Quorum) 유지를 위해 최소 3개 이상의 노드가 안정적이라는 점을 꼭 기억해야 합니다. (홀수 노드가 좋습니다.)

# 첫 번째 노드에서 클러스터 생성
pvecm create home-ceph-cluster

# 다른 노드에서 클러스터에 조인 (첫 번째 노드 IP와 패스워드 필요)
pvecm add 192.168.1.10 --token <토큰_값>

이 과정 자체는 매끄러웠습니다. Proxmox의 클러스터 관리 기능은 정말 잘 되어 있더라고요.

Ceph 설치 및 OSD 추가: Proxmox Ceph 통합의 시작!

이제 대망의 Ceph 차례입니다. Proxmox VE는 Ceph 통합 기능이 워낙 잘 되어 있어서 CLI(Command Line Interface)나 웹 UI에서 몇 번의 명령으로 Ceph를 설치하고 OSD(Object Storage Device)를 추가할 수 있습니다.

# 각 Proxmox 노드에서 Ceph 설치
pveceph install

# Ceph Monitor(모니터) 설치 (클러스터 노드 중 최소 3개에 설치 권장)
pveceph createmon

# OSD 추가 (각 노드의 사용 가능한 디스크를 OSD로 지정)
# 예: /dev/sdb 디스크를 OSD로 추가하고, NVMe SSD를 DB/WAL로 사용
pveceph createosd /dev/sdb --db-device /dev/nvme0n1 --wal-device /dev/nvme0n1

처음에는 단순히 `pveceph createosd /dev/sdb` 이런 식으로 HDD를 OSD로 추가했는데, 성능이 영 시원찮았습니다. Ceph의 BlueStore(블루스토어) 백엔드는 메타데이터를 빠르게 처리하는 것이 중요한데, HDD만으로는 한계가 명확하더라고요. 그래서 나중에는 NVMe SSDDB/WAL(데이터베이스/쓰기Ahead로그) 용도로 할당해서 성능을 끌어올렸습니다. 이 부분이 Ceph 성능 튜닝의 핵심 중 하나라는 걸 몸소 깨달았죠. 💡

Proxmox VE 웹 UI에서 활성화된 Ceph OSD 목록을 보여주는 화면

Proxmox VE 웹 UI의 Ceph 섹션입니다. 각 노드의 OSD 목록과 상태(UP/IN)를 한눈에 확인할 수 있습니다. 저 많은 OSD들이 제 소중한 데이터를 분산해서 저장하고 있죠.

1년간 Proxmox Ceph를 운영하며 겪은 안정성 및 성능 이야기

1년이라는 시간은 Ceph 클러스터의 진정한 가치를 시험하기에 충분했습니다. 정말 많은 것을 배우고 느꼈네요.

안정성 (Stability) 회고: 역시 분산 스토리지!

Ceph의 가장 큰 장점 중 하나는 데이터 안정성(Data Durability)입니다. 저도 OSD 하나가 갑자기 죽는 경험을 몇 번 했습니다. 그때마다 심장이 덜컥 내려앉았지만, Ceph는 3-복제 덕분에 자동으로 데이터 복구(Self-healing)를 시작하더라고요. 물론 복구 시간 동안 클러스터 성능이 저하되긴 했지만, 데이터 손실 없이 무사히 복구를 완료하는 모습을 보면서 "이래서 Proxmox Ceph 조합을 쓰는구나!" 하고 감탄했습니다. 👏

Proxmox VE의 HA (High Availability, 고가용성) 기능도 빛을 발했습니다. 특정 Proxmox 노드가 재부팅되거나 문제가 생겼을 때, 해당 노드에서 실행 중이던 VM들이 다른 노드에서 자동으로 재시작되는 것을 여러 번 확인했습니다. Ceph 스토리지 덕분에 VM 디스크에 대한 접근성이 보장되었기 때문에 가능한 일이었죠. 물론 순간적인 서비스 중단은 있었지만, 시스템 전체의 가용성을 크게 높여주었습니다.

성능 (Performance) 회고: 기대와 현실 사이

초기에는 HDD OSD만으로 Ceph를 구성했더니, VM의 디스크 I/O가 심하게 느려지는 문제가 있었습니다. 특히 여러 VM이 동시에 디스크 작업을 할 때는 확연히 체감될 정도였죠. 웹 서버나 데이터베이스 서버를 돌리는데 응답 속도가 느려지니 답답하더라고요.

이 문제를 해결하기 위해 NVMe SSD를 DB/WAL 디바이스로 추가하는 튜닝을 진행했습니다. 결과는 드라마틱한 성능 향상이었습니다! 특히 작은 파일 I/O나 랜덤 읽기/쓰기 성능이 눈에 띄게 좋아졌습니다. 💡 또한, 클러스터 내부 통신(Ceph Private Network)을 10GbE 스위치로 분리하고 업그레이드하면서 네트워크 병목 현상도 크게 줄였습니다. Ceph는 데이터를 복제하고 노드 간에 통신해야 하므로, 빠른 네트워크는 필수라는 걸 다시 한번 깨달았죠.

Ceph 클러스터의 1년 간 성능(IOPS, 처리량, 지연 시간) 및 스토리지 사용량을 보여주는 Grafana 대시보드

지난 1년간 Ceph 클러스터의 주요 성능 지표(IOPS, 처리량, 지연 시간)와 스토리지 사용량을 보여주는 Grafana 대시보드입니다. NVMe 캐시 추가 이후 I/O 성능이 크게 개선된 것을 볼 수 있습니다.

제가 배운 교훈과 놓치지 말아야 할 포인트들 (주의사항 및 트러블슈팅)

1년간의 여정은 순탄치만은 않았습니다. 수많은 삽질과 시행착오를 겪으며 얻은 교훈들을 공유합니다.

  1. 네트워크의 중요성 ⚠️: Ceph는 엄청난 양의 데이터를 노드 간에 주고받습니다. 특히 데이터 복제(Replication)와 리밸런싱(Rebalancing) 시에는 네트워크 대역폭을 거의 다 써버리기도 해요. 저는 1GbE로 시작했다가 병목 현상에 시달렸고, 결국 10GbE Private Network(프라이빗 네트워크)를 구성하면서 안정적인 성능을 확보했습니다. 반드시 Ceph 전용 네트워크를 분리하고, 가능한 한 빠른 대역폭을 확보하는 것이 좋습니다.
  2. OSD 디스크 선택 및 구성: HDD만으로 OSD를 구성하면 성능 한계가 명확합니다. 가능하다면 SSD나 NVMe SSD를 DB/WAL 디바이스로 활용하여 BlueStore의 메타데이터 처리 속도를 높이세요. 저는 OSD 구성 시 디스크 성능과 용량을 신중하게 고려하지 않아서 나중에 재구성하는 삽질을 좀 했습니다.
  3. 모니터링의 생활화: Ceph 클러스터는 생각보다 복잡합니다. `ceph -s` 명령으로 클러스터 상태를 주기적으로 확인하고, Proxmox VE 자체 모니터링 외에 PrometheusGrafana를 연동하여 세밀한 모니터링 대시보드를 구축하는 것이 좋습니다. OSD의 상태, 네트워크 트래픽, 스토리지 사용량 등을 실시간으로 확인해야 문제 발생 시 빠르게 대응할 수 있습니다.
  4. CRUSH Map (크러시 맵) 이해: Ceph는 CRUSH Map이라는 알고리즘을 사용해서 데이터를 어디에 저장하고 어떻게 복제할지 결정합니다. 이 CRUSH Map을 이해하면 데이터가 어떻게 분산되는지, 장애 시 복구가 어떻게 이루어지는지 파악하는 데 큰 도움이 됩니다. 홈랩에서는 기본 설정으로도 충분하지만, 좀 더 최적화된 구성을 원한다면 깊이 파고들어 볼 가치가 있습니다.
  5. 업그레이드 및 패치: Proxmox VE와 Ceph는 꾸준히 업데이트됩니다. 새로운 기능과 버그 수정이 포함된 업데이트는 중요하지만, 항상 사전에 충분히 테스트하고 백업 전략을 세운 후 진행해야 합니다. 저는 한 번 업데이트 후에 특정 OSD가 Unhealthy 상태가 되어 클러스터 재시작 후 복구하는 경험도 있었습니다.
# Ceph 클러스터 상태 확인 (가장 기본적인 명령)
ceph -s

# OSD 디스크 트리 확인 (어떤 디스크가 OSD로 사용되는지, 상태는 어떤지)
ceph osd tree

# Ceph 로그 확인
tail -f /var/log/ceph/ceph.log

이런 명령들을 꾸준히 사용하며 클러스터의 "건강"을 체크하는 것이 중요합니다.

결론 및 다음 단계

Proxmox VE와 Ceph를 활용한 분산 스토리지 구축은 제 홈랩에 강력한 고가용성 스토리지를 선물해주었습니다. 물론 초기 설정의 복잡성, 그리고 10GbE 네트워크나 NVMe SSD 같은 추가적인 하드웨어 투자 비용은 무시할 수 없었지만, 그만큼 안정성과 성능이라는 큰 보상을 얻을 수 있었습니다. 특히 OSD 하나가 죽어도 데이터가 안전하고, VM이 자동으로 다른 노드에서 재시작되는 경험은 정말 든든하더라고요. 홈랩에서 중요한 서비스를 운영하거나, 미래의 스케일업(Scale-up)을 염두에 두고 있다면 Proxmox Ceph 조합은 충분히 고려해볼 만한 가치가 있습니다.

물론 Ceph가 모든 상황에 완벽한 솔루션은 아닙니다. 작은 규모에서는 오히려 오버헤드가 더 클 수도 있고, 특정 워크로드(예: 매우 높은 단일 VM IOPS)에서는 최적화가 필요할 때도 있습니다. 하지만 저렴한 비용으로 엔터프라이즈급 스토리지의 맛을 볼 수 있다는 점은 홈랩 엔지니어에게는 정말 큰 매력이라고 생각합니다.

다음 단계로는 현재 운영 중인 Ceph 클러스터의 성능을 좀 더 면밀히 분석하고, 특정 VM에 대한 스토리지 I/O 최적화 방안을 모색해보려고 합니다. 또한, CephFS(쎄프 파일 시스템)를 활용하여 파일 공유 시스템을 구축해보는 것도 재미있는 도전이 될 것 같네요. 혹시 여러분도 Proxmox Ceph에 대한 궁금한 점이나 공유하고 싶은 경험이 있다면 언제든지 댓글로 남겨주세요!

Proxmox VE와 Ceph 분산 스토리지의 장점과 단점을 비교하는 인포그래픽

Proxmox VE와 Ceph 분산 스토리지 조합의 주요 장점과 고려해야 할 단점을 요약한 인포그래픽입니다. 홈랩 환경에서의 활용 가치를 한눈에 파악할 수 있습니다.

다음에 더 유익한 정보로 찾아뵙겠습니다. 13년차의 서버실이었습니다!