목차
- 로컬 LLM 시대, 왜 Ollama인가요?
- Ollama가 뭔가요? 쉽게 설명해 드릴게요
- Ollama의 주요 특징
- 다른 로컬 LLM 도구와 비교
- Ollama 설치하기 (OS별 방법)
- 1. Linux (Ubuntu/Debian 계열)
- 2. macOS
- 3. Windows
- Ollama 최신 모델 설치하고 실행하기
- 지원되는 주요 최신 모델 목록
- 모델 다운로드 및 실행
- Gemma 2 직접 써본 소감
- REST API로 활용하기 (개발자 필독!)
- Python으로 Ollama 연동하기
- Ollama 사용할 때 팁과 주의사항
- 성능을 높이는 팁
- 주의사항
- 결론: 로컬 LLM 시대, 지금이 기회
로컬 LLM 시대, 왜 Ollama인가요?
요즘 AI 얘기 안 나오는 데가 없죠. ChatGPT, Claude, Gemini... 다들 써보셨을 텐데요, 저도 업무에 꽤 많이 활용하고 있거든요. 근데 한 가지 계속 걸리는 게 있었어요. 내 데이터가 외부 서버로 나간다는 것. 인프라 엔지니어 특성상 보안 이슈에 민감한 편이라, 업무 관련 내용을 클라우드 AI에 막 붙여넣기 하기가 좀 꺼려지더라고요.
그래서 시작한 게 로컬 LLM(Local Large Language Model, 내 컴퓨터에서 직접 돌리는 AI 모델) 실험이었습니다. 처음엔 직접 모델 파일 받아서 llama.cpp로 돌리고... 솔직히 삽질 좀 했습니다 ㅎㅎ. 그러다 Ollama를 발견했는데, 진짜 이거 처음 써봤을 때 "왜 이걸 이제 알았지?" 싶었어요. 요즘 기술 블로그를 찾아보니 Ollama 최신 모델 가이드가 별로 없더라고요. 그래서 제 경험을 정리해 보기로 했습니다.
오늘은 Ollama 최신 모델을 손쉽게 설치하고 사용하는 방법을 제 경험 기반으로 정리해 드릴게요. 특히 Google이 최근 공개한 Gemma 2도 같이 다뤄볼 예정이니, 끝까지 읽어주세요!
Ollama를 통해 로컬 환경에서 LLM 모델을 직접 실행하는 전체 구조. 인터넷 없이도 AI 추론이 가능하다.
Ollama가 뭔가요? 쉽게 설명해 드릴게요
쉽게 말해, Ollama는 로컬 LLM을 위한 Docker 같은 존재입니다. Docker를 쓰면 복잡한 환경 설정 없이 컨테이너 하나로 애플리케이션을 돌릴 수 있잖아요? Ollama도 마찬가지예요. 원래 로컬 LLM을 돌리려면 CUDA 드라이버 설정, 모델 파일 변환, 파라미터 튜닝... 이것저것 손댈 게 한두 가지가 아니거든요.
Ollama는 이 모든 복잡한 과정을 단 한 줄의 명령어로 해결해 줍니다. 모델 다운로드부터 실행까지 전부 자동으로 처리해 주니까요. 정말 편합니다.
Ollama의 주요 특징
- ✅ 간편한 설치: macOS, Linux, Windows 모두 지원
- ✅ 다양한 최신 모델: Llama 3, Gemma 2, Mistral, Phi-3, Qwen 등 지원
- ✅ REST API 제공: 자체 API 서버 내장, 앱 개발 연동 가능
- ✅ GPU/CPU 자동 감지: NVIDIA, AMD, Apple Silicon 모두 지원
- ✅ 완전한 오프라인 동작: 모델 다운로드 후 인터넷 불필요
다른 로컬 LLM 도구와 비교
| 도구 | 설치 난이도 | 모델 다양성 | API 지원 | GPU 지원 | 추천 대상 |
|---|---|---|---|---|---|
| Ollama | ⭐ 매우 쉬움 | ⭐⭐⭐ 매우 다양 | ✅ 기본 내장 | ✅ 자동 감지 | 입문자 ~ 개발자 |
| llama.cpp | ⭐⭐⭐ 어려움 | ⭐⭐⭐ 다양 | 별도 설정 필요 | 수동 설정 | 고급 사용자 |
| LM Studio | ⭐ 쉬움 | ⭐⭐ 보통 | ✅ 지원 | ✅ 지원 | GUI 선호 사용자 |
| LocalAI | ⭐⭐ 보통 | ⭐⭐ 보통 | ✅ OpenAI 호환 | ✅ 지원 | 서버 운영자 |
저도 처음엔 llama.cpp로 시작했는데, 솔직히 진입 장벽이 좀 있었어요. Ollama는 정말 "설치하고 바로 쓴다"는 느낌이 강합니다.
Ollama 설치하기 (OS별 방법)
자, 이제 본격적으로 Ollama 최신 모델을 설치해 봅시다. 제 홈랩은 Ubuntu 22.04 기반이라 Linux 위주로 설명하지만, macOS와 Windows도 함께 정리해 드릴게요.
1. Linux (Ubuntu/Debian 계열)
터미널 하나 열고 아래 명령어 한 줄이면 끝납니다. 진짜예요.
# Ollama 공식 설치 스크립트
curl -fsSL https://ollama.com/install.sh | sh
설치가 완료되면 Ollama가 백그라운드 서비스로 자동 등록됩니다. 서비스 상태 확인은 이렇게 하시면 돼요.
# 서비스 상태 확인
sudo systemctl status ollama
# 서비스 시작 (필요한 경우)
sudo systemctl start ollama
# 부팅 시 자동 시작 설정
sudo systemctl enable ollama
2. macOS
macOS는 공식 사이트(ollama.com)에서 앱 파일 받아서 설치하는 게 제일 편합니다. Homebrew를 쓰신다면:
brew install ollama
Apple Silicon(M1/M2/M3) 맥에서는 Metal GPU를 자동으로 활용해서 생각보다 속도가 꽤 잘 나오더라고요. 저도 M2 맥북으로 테스트해봤는데 인상적이었습니다.
3. Windows
공식 사이트에서 Windows 인스톨러(.exe)를 받아서 설치하시면 됩니다. WSL2(Windows Subsystem for Linux 2)를 통해 Linux 방식으로 설치하는 것도 가능해요.
Ollama 설치 후 터미널에서 모델을 pull하는 과정. 마치 Docker pull처럼 간단하게 모델을 받을 수 있다.
Ollama 최신 모델 설치하고 실행하기
설치가 됐으면 이제 모델을 받아봅시다. 여기서부터가 진짜 재미있는 부분이에요.
지원되는 주요 최신 모델 목록
Ollama의 공식 모델 라이브러리(ollama.com/library)에 가면 엄청 많은 모델이 있는데요, 제가 직접 써보고 추천하는 Ollama 최신 모델들만 추려봤습니다.
| 모델명 | 파라미터 | 용량 | 특징 | 권장 VRAM |
|---|---|---|---|---|
| llama3.2 | 3B / 11B | 2GB / 7GB | Meta 최신작, 범용성 우수 | 4GB / 8GB |
| gemma2 | 2B / 9B / 27B | 1.6GB / 5.5GB / 16GB | Google 최신작, 한국어 준수 | 4GB / 8GB / 24GB |
| mistral | 7B | 4.1GB | 코드 작성 강점 | 8GB |
| phi3 | 3.8B / 14B | 2.3GB / 8.4GB | Microsoft, 소형 모델 대비 성능 우수 | 4GB / 12GB |
| qwen2.5 | 7B / 14B | 4.4GB / 9GB | Alibaba, 다국어(한국어) 강점 | 8GB / 12GB |
| deepseek-r1 | 7B / 14B | 4.7GB / 9GB | 추론 특화, 수학/코딩 강점 | 8GB / 12GB |
모델 다운로드 및 실행
명령어 구조가 Docker랑 정말 비슷합니다. docker pull 대신 ollama pull, docker run 대신 ollama run이에요.
# 모델 다운로드 (pull)
ollama pull gemma2
# 특정 버전/사이즈 지정
ollama pull gemma2:9b
ollama pull gemma2:27b
# 모델 실행 (대화 시작)
ollama run gemma2
# Llama 3.2 실행
ollama run llama3.2
# 설치된 모델 목록 확인
ollama list
# 모델 삭제
ollama rm gemma2:27b
ollama run을 실행하면 바로 터미널 채팅 인터페이스가 뜹니다. 채팅 종료는 /bye를 입력하거나 Ctrl+D를 누르시면 돼요.
Gemma 2 직접 써본 소감
저는 요즘 Gemma 2 9B를 주력으로 쓰고 있는데요, 솔직히 말씀드리면 처음엔 기대를 별로 안 했거든요. 근데 막상 써보니까 한국어 처리가 생각보다 훨씬 잘 되더라고요. 특히 코드 관련 질문이나 기술 문서 요약할 때 꽤 쓸만합니다.
💡 팁: VRAM이 8GB라면 gemma2:9b, 16GB 이상이라면 gemma2:27b를 추천합니다. 27B는 진짜 GPT-3.5 수준이라고 봐도 무방할 정도예요.
REST API로 활용하기 (개발자 필독!)
Ollama의 진짜 강점 중 하나가 바로 내장 REST API입니다. Ollama를 실행하면 자동으로 http://localhost:11434에 API 서버가 뜨거든요.
# API로 모델에 질문하기 (curl 예시)
curl http://localhost:11434/api/generate -d '{
"model": "gemma2",
"prompt": "한국에서 AI 개발이 중요한 이유는?",
"stream": false
}' | jq '.response'
이렇게 하면 JSON 형식으로 응답이 돌아옵니다. Python이나 JavaScript로 쉽게 연동할 수 있어서, 자신의 애플리케이션에 로컬 LLM을 붙이고 싶다면 정말 편합니다.
Python으로 Ollama 연동하기
Python을 쓰신다면 ollama 라이브러리를 설치하고 간단하게 연동할 수 있어요.
# ollama 라이브러리 설치
pip install ollama
# Python 코드
from ollama import Client
client = Client(host='http://localhost:11434')
response = client.generate(
model='gemma2',
prompt='AI와 머신러닝의 차이점을 설명해줘',
stream=False
)
print(response['response'])
정말 간단하죠? 이렇게 하면 로컬에서 돌아가는 모델을 마치 외부 API처럼 쓸 수 있습니다.
Ollama 사용할 때 팁과 주의사항
성능을 높이는 팁
- 모델 크기 선택: 첫 사용자라면 작은 모델(2B~7B)부터 시작하는 게 좋습니다. 충분히 빠르고 성능도 나쁘지 않거든요.
- GPU 활용: NVIDIA GPU가 있다면 CUDA가 자동으로 활용됩니다. AMD라면 ROCm 설정이 필요할 수 있어요.
- 메모리 관리: 여러 모델을 동시에 로드하면 VRAM이 부족할 수 있으니, 필요한 모델만 실행하세요.
- 온도 모니터링: 장시간 사용 시 GPU 온도를 체크하세요.
nvidia-smi로 확인할 수 있습니다.
주의사항
- 첫 실행 시 모델 다운로드에 시간이 걸릴 수 있습니다. 인터넷 속도에 따라 몇 분에서 십몇 분까지 걸릴 수 있어요.
- 로컬 모델은 클라우드 AI보다 응답 속도가 느릴 수 있습니다. 하드웨어 사양에 따라 차이가 커요.
- 모델이 완벽하지는 않으니, 중요한 결정은 항상 검증하세요. 특히 코드나 의료 정보는 더욱 주의가 필요합니다.
결론: 로컬 LLM 시대, 지금이 기회
Ollama 덕분에 이제 누구나 쉽게 로컬 LLM을 사용할 수 있는 시대가 왔습니다. 보안이 중요한 업무, 인터넷이 불안정한 환경, 또는 단순히 호기심으로 AI를 배우고 싶다면 Ollama는 정말 좋은 선택지예요.
특히 Gemma 2 같은 최신 모델들이 계속 나오고 있으니, 이번 기회에 로컬 LLM을 시작해 보세요. 처음엔 낯설겠지만, 한번 써보면 "이게 이렇게 쉬웠나?"라고 놀랄 거예요.
혹시 설치 중에 문제가 생기거나 궁금한 점이 있으면 댓글로 남겨주세요. 가능한 한 빨리 답변해 드리겠습니다!
'IT > AI' 카테고리의 다른 글
| [AI] ChatGPT, Claude, Gemini: 실무 LLM 비교 분석 (2) | 2026.04.19 |
|---|---|
| [AI] Google Gemini API 실전 활용: 멀티모달 기능과 최신 모델 연동 가이드 (1) | 2026.04.19 |
| [AI] Claude Opus 4.7 완벽 분석: AI 코딩·비전 성능 향상 및 토큰 비용 40% 절감 전략 (1) | 2026.04.17 |
| [AI] Ollama로 Mac mini에서 Gemma 4 26B 실행: Flash Attention 최적화 가이드 (0) | 2026.04.14 |
| [AI] Claude 3.5 Sonnet API로 AI API 연동하기: 나만의 AI 서비스 만들기 (0) | 2026.04.13 |
| [AI] Claude Code 자가 개선 에이전트를 VS Code에서 구축하는 완전 가이드 (0) | 2026.04.12 |