
들어가며: "아빠, 이거 ChatGPT야?" "아니, 이건 아빠표 AI야."
솔직히 고백하겠습니다. 저는 매달 나가는 AI 구독료가 아깝습니다.
ChatGPT Plus 월 2만원, Claude Pro 월 2만원, Gemini Advanced 또 얼마... 4명의 아이들 학원비도 빠듯한 가장의 지갑에서 AI 구독료가 줄줄 새어나가는 걸 보고 있자니, 시스템 엔지니어의 피가 끓어오르더라고요. "잠깐, 나 서버 만드는 사람인데... 직접 만들면 되는 거 아냐?"
그렇게 시작된 주말 프로젝트가 지금은 우리 가족 전체가 쓰는 '아빠표 AI 서버'가 되었습니다. Proxmox 위에 Ollama를 올리고, Open WebUI로 ChatGPT 못지않은 깔끔한 웹 인터페이스까지 씌웠죠. 비용은? 전기세 빼면 완전 무료입니다. 오늘은 이 시스템을 처음부터 끝까지 구축하는 방법을 여러분과 나눠볼까 합니다.
1. 왜 지금 로컬 AI인가? — 2026년, 흐름이 바뀌고 있다
"AI는 클라우드로 쓰면 되지, 왜 굳이 집에서 돌려?"라는 질문을 정말 많이 받습니다. 하지만 2026년 현재 상황은 꽤 달라졌어요.
첫째, 오픈소스 AI 모델의 성능이 무섭게 좋아졌습니다. Meta의 Llama 시리즈, Google의 Gemma, 알리바바의 Qwen, 그리고 DeepSeek까지 — 이제 70억 ~ 270억 파라미터급 모델만으로도 일상적인 질문, 코딩 보조, 문서 요약 정도는 거뜬히 해냅니다.
1,2년 전만 해도 로컬 AI라 하면 "느리고 멍청한 챗봇" 이미지였는데, 솔직히 지금은 가벼운 업무용으로 클라우드 AI와 체감 차이가 크지 않습니다.
둘째, 프라이버시 이슈입니다. 회사 문서를 ChatGPT에 붙여넣는 순간 그 데이터가 어디로 흘러가는지 아무도 장담 못 합니다. 아이들 숙제를 도와줄 때도 마찬가지예요. 로컬 AI는 데이터가 내 서버 밖으로 나가지 않으니 이런 걱정 자체가 없죠.
셋째, 구독료 인상 피로감입니다. AI 서비스들이 점점 가격을 올리고 있고, 무료 티어는 갈수록 제한이 심해지고 있거든요. 한번 세팅해두면 추가 비용 없이 무제한으로 쓸 수 있는 로컬 AI가 매력적으로 보이는 이유입니다.

2. 전체 아키텍처 한눈에 보기 — 레고 블록처럼 쌓는다
복잡해 보이지만 사실 구조는 단순합니다. 레고 블록 3개를 순서대로 쌓는다고 생각하면 돼요.
1층: Proxmox VE (하이퍼바이저) — 우리 집 서버의 운영체제이자 기반입니다. VMware가 Broadcom에 인수된 뒤 라이선스 정책이 엉망이 되면서, 2026년 현재 홈랩 커뮤니티에서 Proxmox는 사실상 표준 하이퍼바이저로 자리잡았습니다. 무료이면서도 ZFS, LXC 컨테이너, VM 관리까지 다 되니까요. 이미 Proxmox를 쓰고 계신 분들은 이 단계를 건너뛰시면 됩니다.
2층: Ollama (AI 엔진) — 로컬에서 대규모 언어 모델(LLM)을 다운로드하고 실행해주는 핵심 엔진입니다. Docker처럼 ollama pull llama3.1만 치면 모델이 뚝딱 내려오고, 바로 추론이 가능해요. REST API도 기본 제공이라 다른 앱에서 호출하기도 편합니다.
3층: Open WebUI (사용자 인터페이스) — Ollama만으로는 터미널에서 텍스트를 주고받아야 하는데, 솔직히 그건 가족들한테 쓰라고 할 수 없잖아요. Open WebUI는 ChatGPT와 거의 동일한 웹 인터페이스를 제공합니다. 2026년 3월 기준으로 GitHub 스타 9만 개를 돌파한 초대형 오픈소스 프로젝트이고, 다중 사용자 지원, RAG(문서 기반 검색), 웹 검색 연동, 이미지 생성까지 지원합니다.
3. 실전 구축 가이드 — 주말 하루면 충분합니다
3-1. 하드웨어: 거창할 필요 없습니다
미니 PC 한 대면 됩니다. 제가 추천하는 최소 사양은 이렇습니다. CPU는 Intel N100 이상 또는 AMD Ryzen 5000 시리즈 이상이면 충분하고, RAM은 16GB 이상을 권장합니다 (7B 모델 기준 8GB로도 가능하지만 넉넉한 게 정신건강에 좋아요). 스토리지는 SSD 256GB 이상이 필요하고, LLM 모델 하나가 보통 4~8GB 정도 차지하니까요.
GPU가 있으면 훨씬 빠르지만, 없어도 CPU만으로 충분히 돌아갑니다. 다만 응답 속도 차이는 체감됩니다 — GPU가 있으면 실시간 대화 수준, CPU만 쓰면 "음... 좀 생각 중..." 수준이라고 보시면 돼요.
3-2. Proxmox에 LXC 컨테이너 생성하기
VM보다 LXC 컨테이너를 추천하는 이유가 있습니다. LXC는 호스트 OS의 커널을 공유하기 때문에 메모리 오버헤드가 거의 없고, GPU를 패스스루(passthrough)할 때도 VM처럼 독점하지 않아서 다른 컨테이너와 GPU를 공유할 수 있습니다. Proxmox 커뮤니티에서 제공하는 Helper Script를 활용하면 Ollama + Open WebUI용 LXC를 명령어 한 줄로 생성할 수 있어요. 검색창에 "Proxmox VE Helper Scripts"를 치시면 바로 찾으실 수 있습니다.
컨테이너 디스크 크기는 넉넉하게 40GB 이상으로 잡아주세요. LLM 모델 파일이 꽤 큰데, 나중에 디스크를 줄이는 건 까다롭지만 늘리는 건 쉽거든요.
3-3. Ollama 설치 및 모델 다운로드
LXC 컨테이너 안에서 Ollama 설치는 명령어 한 줄이면 끝납니다.
curl -fsSL https://ollama.com/install.sh | sh
설치가 끝나면 모델을 내려받습니다. 2026년 3월 기준으로 제가 추천하는 모델 조합은 이렇습니다. 범용 대화에는 Llama 3.1 8B 또는 Qwen2.5 14B가 좋고, 코딩 보조에는 Qwen2.5-Coder가 탁월합니다. 한국어 성능이 중요하다면 DeepSeek-R1 8B 또는 Qwen 시리즈를 추천드립니다. 특히 Qwen 모델은 동아시아 언어에 강점이 있어서 한국어 응답 품질이 꽤 괜찮습니다.
ollama pull qwen2.5:14b
ollama pull deepseek-r1:8b
ollama pull qwen2.5-coder:7b
3-4. Open WebUI 배포 — ChatGPT 인터페이스 입히기
Open WebUI는 Docker 한 줄이면 설치됩니다.
docker run -d -p 3000:8080 \
-e OLLAMA_BASE_URL=http://localhost:11434 \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
브라우저에서 http://서버IP:3000으로 접속하면 익숙한 채팅 인터페이스가 반겨줍니다. 처음 접속할 때 관리자 계정을 생성하게 되는데, 이후에 가족 구성원별로 개별 계정을 만들어줄 수 있어요. 아이마다 다른 시스템 프롬프트를 설정해서 "수학 선생님 모드", "영어 회화 연습 모드" 같은 커스텀 AI를 만들어줄 수 있습니다. 아이들이 꽤 좋아하더라고요.

4. 실사용 꿀팁 — 엔지니어 아빠의 운영 노하우
4-1. NVIDIA GPU가 있다면 반드시 패스스루 설정하세요
GPU 유무에 따른 성능 차이는 하늘과 땅입니다. 예를 들어 14B 파라미터 모델 기준으로 CPU 전용이면 초당 약 2
5토큰 정도 나오는데, RTX 3060 (12GB VRAM) 정도만 붙여도 초당 20
30토큰으로 뛰어요. 체감상 "타이핑하는 속도"와 "한참 기다리는 속도"의 차이입니다.
Proxmox에서 NVIDIA GPU 패스스루는 IOMMU 활성화, vfio 드라이버 바인딩, 컨테이너 디바이스 매핑 이 세 단계를 거치면 됩니다. LXC를 쓴다면 /dev/dri와 /dev/nvidia* 디바이스를 컨테이너에 마운트하는 것만으로도 가능하고, 이 경우 GPU를 여러 컨테이너가 공유할 수 있어서 Jellyfin 같은 미디어 서버에서도 동시에 하드웨어 트랜스코딩을 쓸 수 있습니다.
4-2. 야간 모델 프리로딩으로 아침 응답 속도 높이기
Ollama는 기본적으로 5분간 사용하지 않으면 모델을 메모리에서 언로드합니다. 아침에 처음 질문을 하면 모델을 다시 로드하느라 첫 응답이 느릴 수 있어요. 환경 변수 OLLAMA_KEEP_ALIVE를 24h로 설정하면 하루 종일 모델이 메모리에 상주해서 항상 즉시 응답합니다. 다만 메모리 여유가 충분할 때만 사용하세요.
4-3. RAG로 가족 매뉴얼 AI 만들기
Open WebUI의 RAG(Retrieval Augmented Generation) 기능을 활용하면 PDF나 텍스트 파일을 업로드해서 "우리 집 전용 지식 베이스"를 만들 수 있습니다. 저는 집 보일러 설명서, 세탁기 매뉴얼, 아이들 학교 알림장 PDF를 올려놨더니 "보일러 타이머 설정 어떻게 해?" 같은 질문에 정확하게 답해줍니다. 가족들이 제일 좋아하는 기능이에요.

마무리: 엔지니어의 가장 보람찬 주말 프로젝트
솔직히 말하면, 이 프로젝트를 시작한 진짜 이유는 구독료 절약이었습니다. 그런데 막상 만들고 보니 그보다 훨씬 큰 걸 얻었어요.
아이들이 "아빠, 이거 진짜 아빠가 만든 거야?"라며 눈을 동그랗게 뜨던 순간, 그리고 아내가 요리하면서 "AI야, 된장찌개 황금비율 알려줘"라고 자연스럽게 말하는 모습을 보면서 — 아, 이게 바로 홈랩의 참맛이구나 싶었습니다.
여러분의 먼지 쌓인 미니 PC에도 AI의 숨결을 불어넣어 보세요. 주말 하루면 가족 전용 AI 비서가 탄생합니다. 구독료 0원에, 프라이버시는 100%에, 자랑거리는 무한대입니다. 그럼 다음 포스팅에서는 이 시스템에 GPU 패스스루를 적용하고 Stable Diffusion까지 연동해서 이미지 생성 AI까지 통합하는 방법을 다뤄보겠습니다. 즐거운 홈랩 라이프 되세요!