[AI] Ollama로 로컬 AI 환경 구축: LLM 모델 설치 및 활용 완벽 가이드

클라우드 AI에 지쳐서 직접 내 서버에 AI를 올려봤습니다
Ollama란? — 쉽게 말해서 LLM용 Docker
Ollama 지원 모델 한눈에 보기
Ollama 설치 — 생각보다 훨씬 간단합니다
Linux와 macOS 설치
Windows 설치
Docker로 설치하기 (서버 환경 추천)
LLM 모델 설치 및 실행하기
모델 다운로드 (pull)
모델 실행 및 대화하기
단일 질의 (Non-interactive 모드)
REST API로 호출하기
Python에서 Ollama 활용하기

클라우드 AI에 지쳐서 직접 내 서버에 AI를 올려봤습니다

솔직히 말씀드리면, 저도 처음엔 GPT API 쓰면 되지 뭘 굳이 로컬에서 돌리나 싶었거든요. 근데 쓰다 보니까 문제가 생기더라고요. 회사 코드를 붙여넣기 하기가 찜찜하고, API 비용은 은근히 쌓이고, 인터넷 연결이 불안정한 환경에서는 아예 못 쓰고. 이런 상황이 반복되다 보니 결국 로컬 AI 환경 구축을 진지하게 고민하게 됐습니다.

그러다 발견한 게 Ollama입니다. 처음 써봤을 때 진짜 "이게 이렇게 쉬워도 되나?" 싶을 정도로 간단했어요. 명령어 몇 줄로 LLM 모델 설치가 끝나고, 바로 터미널에서 대화할 수 있거든요. 오늘은 제가 홈랩에서 Ollama를 세팅하면서 겪은 경험을 바탕으로, 처음 시작하시는 분들도 막히지 않도록 단계별로 정리해 드리겠습니다.

▲ Ollama를 중심으로 구성된 로컬 AI 환경의 전체 흐름. 사용자 요청이 Ollama 서버를 통해 LLM 모델로 전달되는 구조입니다.

Ollama란? — 쉽게 말해서 LLM용 Docker

Ollama를 처음 접하시는 분들을 위해 간단히 설명드릴게요. Ollama는 LLM(대규모 언어 모델)을 로컬 환경에서 쉽게 실행할 수 있도록 도와주는 오픈소스 도구입니다. 쉽게 말해서, 도커(Docker)가 컨테이너 이미지를 pull 받아서 실행하듯이, Ollama는 LLM 모델을 pull 받아서 바로 실행해 준다고 보시면 됩니다.

기존에 로컬에서 LLM을 돌리려면 Python 환경 세팅하고, 모델 파일 직접 다운로드하고, 의존성 패키지 맞추고... 이게 보통 일이 아니었거든요. 저도 llama.cpp 직접 빌드하다가 CUDA 버전 안 맞아서 몇 시간 날린 적 있습니다. Ollama는 이 복잡함을 싹 없애줍니다.

✅ 단일 바이너리 설치 — 별도 Python 환경 불필요
✅ 모델 허브 제공 — ollama pull 모델명 한 줄로 다운로드
✅ REST API 기본 제공 — 웹 앱 연동이 쉬움
✅ GPU 가속 자동 감지 — NVIDIA, AMD, Apple Silicon 모두 지원
✅ 완전 오프라인 동작 — 모델 다운로드 후에는 인터넷 불필요

Ollama 지원 모델 한눈에 보기

Ollama에서 공식적으로 제공하는 모델들 중 자주 쓰이는 것들을 정리해 봤습니다. 처음 시작하신다면 llama3나 mistral부터 해보시는 걸 추천드려요.

모델명	파라미터 크기	특징	권장 RAM
llama3	8B / 70B	Meta의 최신 오픈소스 모델, 범용 성능 우수	8GB / 40GB+
mistral	7B	가볍고 빠름, 코딩과 요약에 강점	8GB
gemma	2B / 7B	Google의 경량 모델, 저사양에서도 동작	4GB / 8GB
qwen	다양한 크기	한국어와 중국어 포함 다국어 성능 양호	모델별 상이
codellama	7B / 13B	코드 생성과 완성에 특화된 모델	8GB / 16GB
phi3	3.8B	Microsoft의 소형 고성능 모델	4GB

💡 팁: 모델 파라미터 수가 클수록 성능은 좋지만 그만큼 VRAM과 RAM이 많이 필요합니다. 본인 장비 사양에 맞게 고르는 게 핵심이에요.

Ollama 설치 — 생각보다 훨씬 간단합니다

자, 이제 실전으로 넘어가 볼게요. 설치 자체는 정말 간단합니다. OS별로 방법이 조금씩 다른데, 하나씩 보여드릴게요.

Linux와 macOS 설치

# 공식 설치 스크립트 (Linux / macOS 공통)
curl -fsSL https://ollama.com/install.sh | sh

이 한 줄이면 끝납니다. 진짜로요. 설치 스크립트가 OS를 자동 감지해서 적절한 바이너리를 내려받고 서비스 등록까지 해줍니다. macOS라면 GUI 앱으로도 설치할 수 있는데, 저는 CLI가 더 편해서 위 방법을 씁니다.

Windows 설치

Windows는 공식 홈페이지(ollama.com)에서 설치 파일을 받아서 실행하면 됩니다. 설치 후 자동으로 백그라운드 서비스로 뜨거든요.

Docker로 설치하기 (서버 환경 추천)

# CPU 전용
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# NVIDIA GPU 사용시 (nvidia-docker 설치 필요)
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

저는 홈랩 서버에서는 Docker로 올려두고 쓰고 있어요. 관리가 편하거든요. 특히 -v ollama:/root/.ollama 볼륨 마운트를 꼭 해주셔야 모델 파일이 컨테이너 재시작 후에도 유지됩니다. 처음에 이거 빠뜨려서 모델을 다시 받았던 기억이 나네요.

▲ Ollama 설치 완료 후 llama3 모델을 pull 받는 터미널 화면. 도커처럼 레이어 단위로 다운로드되는 걸 확인할 수 있습니다.

LLM 모델 설치 및 실행하기

Ollama가 설치됐으면 이제 모델을 받아볼 차례입니다. 명령어 구조가 Docker랑 정말 비슷해서, Docker 써보신 분들은 금방 익숙해지실 거예요.

모델 다운로드 (pull)

# 모델 목록 확인
ollama list

# 모델 다운로드 (예: llama3 8B 모델)
ollama pull llama3

# 특정 버전과 크기 지정
ollama pull llama3:8b
ollama pull llama3:70b

# mistral 모델
ollama pull mistral

# 경량 모델 (저사양 PC 추천)
ollama pull phi3
ollama pull gemma:2b

모델 실행 및 대화하기

# 터미널에서 바로 대화 (대화형 모드)
ollama run llama3

# 실행 후 이런 프롬프트가 뜹니다:
# >>> 여기에 질문을 입력하세요
# >>> 안녕하세요! 파이썬으로 피보나치 수열 짜는 법 알려주세요

# 종료는 /bye 또는 Ctrl+D
>>> /bye

처음 ollama run llama3 입력했을 때 드디어 로컬에서 AI가 답변하는 걸 보고 진짜 신기했습니다. 인터넷 끊어도 되고, API 키도 필요 없고. 이 맛에 로컬 AI 하는 거죠 🎉

단일 질의 (Non-interactive 모드)

# 스크립트에서 활용할 때 유용
ollama run llama3 "리눅스에서 디스크 사용량 확인하는 명령어 알려줘"

# 파이프로 입력 전달
echo "이 코드 리뷰해줘" | ollama run codellama

REST API로 호출하기

Ollama는 기본적으로 11434 포트로 REST API 서버를 띄워줍니다. 이걸 활용하면 어떤 언어에서든 Ollama와 통신할 수 있어요.

# curl로 API 직접 호출
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "파이썬으로 Hello World 출력하는 법",
  "stream": false
}'

응답은 JSON 형식으로 돌아오는데, 여기서 response 필드에 AI의 답변이 들어있습니다. "stream": true로 설정하면 스트리밍 방식으로 답변을 받을 수 있어서 사용자 경험이 더 좋습니다.

Python에서 Ollama 활용하기

Python 개발자라면 이렇게 간단하게 Ollama를 연동할 수 있습니다.

import requests
import json

def ask_ollama(prompt, model="llama3"):
    url = "http://localhost:11434/api/generate"
    payload = {
        "model": model,
        "prompt": prompt,
        "stream": False
    }
    response = requests.post(url, json=payload)
    return response.json()["response"]

# 사용 예시
answer = ask_ollama("Ollama가 뭔가요?")
print(answer)

이제 Python 스크립트에서 로컬 LLM을 쉽게 활용할 수 있습니다. API 키 없이, 인터넷 연결 없이 말이죠.

'IT > AI' 카테고리의 다른 글

[AI] vLLM 실전 가이드: 고성능 LLM 추론 및 API 서빙 최적화 (0)	2026.05.09
[AI] 로컬 LLM 활용: Ollama와 최신 Claude 모델 비교 분석 (1)	2026.05.08
[AI] GitHub Copilot 활용 개발 생산성 극대화: 최신 기능 가이드 (0)	2026.05.08
[AI] LLM 파인튜닝 실전 가이드: LoRA/QLoRA로 도메인 특화 모델 만들기 (1)	2026.05.07
[AI] AI 코딩 도우미 비교: GitHub Copilot vs Cursor AI, 개발 생산성 극대화 전략 (2)	2026.04.30
[AI] Gemini API 실전 활용 가이드: 멀티모달 기능으로 AI 서비스 구축하기 (1)	2026.04.30

13년차의 서버실

[AI] Ollama로 로컬 AI 환경 구축: LLM 모델 설치 및 활용 완벽 가이드

목차

클라우드 AI에 지쳐서 직접 내 서버에 AI를 올려봤습니다

Ollama란? — 쉽게 말해서 LLM용 Docker

Ollama 지원 모델 한눈에 보기

Ollama 설치 — 생각보다 훨씬 간단합니다

Linux와 macOS 설치

Windows 설치

Docker로 설치하기 (서버 환경 추천)

LLM 모델 설치 및 실행하기

모델 다운로드 (pull)

모델 실행 및 대화하기

단일 질의 (Non-interactive 모드)

REST API로 호출하기

Python에서 Ollama 활용하기

'IT > AI' 카테고리의 다른 글

티스토리툴바

[AI] Ollama로 로컬 AI 환경 구축: LLM 모델 설치 및 활용 완벽 가이드

목차

클라우드 AI에 지쳐서 직접 내 서버에 AI를 올려봤습니다

Ollama란? — 쉽게 말해서 LLM용 Docker

Ollama 지원 모델 한눈에 보기

Ollama 설치 — 생각보다 훨씬 간단합니다

Linux와 macOS 설치

Windows 설치

Docker로 설치하기 (서버 환경 추천)

LLM 모델 설치 및 실행하기

모델 다운로드 (pull)

모델 실행 및 대화하기

단일 질의 (Non-interactive 모드)

REST API로 호출하기

Python에서 Ollama 활용하기

📚 함께 읽으면 좋은 글

'IT > AI' 카테고리의 다른 글

관련글

티스토리툴바