본문 바로가기
IT/AI

[AI] Ollama 로컬 AI 설치 및 실행 완벽 가이드

by 수누다 2026. 4. 10.

ChatGPT 없이도 AI를 쓸 수 있다고요?

솔직히 말씀드리면, 저도 처음엔 "로컬에서 LLM을 돌린다"는 말이 뭔 소린지 잘 몰랐거든요. 클라우드 API 쓰면 되는 거 아닌가? 했었는데... 직접 써보고 나서 생각이 완전히 바뀌었습니다.

인터넷 연결 없이도 AI가 돌아가고, 데이터가 외부로 한 바이트도 안 나가고, API 요금 걱정도 없고. Ollama 로컬 AI 설치를 처음 해봤을 때 "이게 왜 이렇게 쉽지?" 싶었습니다. 진짜로요.

오늘은 제가 홈랩에서 Ollama를 세팅하면서 겪었던 삽질들까지 포함해서, 처음 시작하시는 분들도 막히지 않게 완벽하게 정리해드릴게요. 설치부터 모델 다운로드, 실제 사용까지 전부 다룹니다.

Ollama를 통해 로컬 환경에서 LLM을 실행하는 전체 구조 — 외부 인터넷 없이 내 PC에서 AI가 동작합니다.

Ollama가 뭔지부터 짚고 넘어가요

쉽게 말해서 이런 도구입니다

Ollama 로컬 AI로컬 LLM(Large Language Model, 대형 언어 모델) 실행 플랫폼입니다. Docker를 아시는 분들이라면 이렇게 이해하시면 딱이에요. "AI 모델을 위한 Docker" 같은 거라고 보시면 됩니다.

Docker가 컨테이너 이미지를 pull 받아서 실행하듯이, Ollama도 AI 모델을 pull 받아서 로컬에서 실행해줍니다. 명령어 구조도 거의 비슷해서 Docker 쓰시던 분들은 더 친숙하게 느끼실 거예요.

  • 완전한 오프라인 동작 — 모델 다운로드 후엔 인터넷 불필요
  • 데이터 프라이버시 — 내 데이터가 외부 서버로 전송되지 않음
  • API 비용 제로 — OpenAI 같은 유료 API 없이 무제한 사용
  • 커스터마이징 자유도 — 모델 파라미터를 내 입맛에 맞게 조정 가능
  • 다양한 모델 지원 — Llama, Mistral, Gemma, Qwen 등 수십 가지

클라우드 AI vs 로컬 AI, 뭐가 다른가요?

비교 항목 클라우드 AI (ChatGPT 등) 로컬 AI (Ollama)
비용 월정액 또는 토큰 과금 완전 무료 (전기세 제외 😄)
프라이버시 데이터 외부 전송 100% 로컬 처리
인터넷 필수 모델 다운로드 후 불필요
성능 최신 대형 모델 (GPT-4 등) 하드웨어에 따라 제한적
응답 속도 네트워크 지연 있음 로컬 처리 (GPU 있으면 빠름)
커스터마이징 제한적 자유롭게 가능

물론 GPT-4 같은 최신 대형 모델 수준의 성능은 기대하기 어렵습니다. 근데 코딩 도우미, 문서 요약, 질의응답 같은 일상적인 작업엔 충분히 쓸 만하더라고요. 저도 지금 홈랩에서 개인 코드 리뷰용으로 잘 쓰고 있습니다.

설치 전 준비사항 확인하기

하드웨어 요구사항

여기서 중요한 포인트! 모델 크기에 따라 필요한 사양이 천차만별입니다. 처음엔 이게 좀 헷갈렸는데, 정리하면 이렇습니다.

모델 크기 대표 모델 최소 RAM 권장 환경
1~3B (소형) qwen2.5:1.5b, llama3.2:1b 4GB 일반 노트북도 가능
7~8B (중형) llama3.1:8b, mistral:7b 8GB 일반 데스크탑 권장
13B (중대형) llama2:13b, codellama:13b 16GB 16GB RAM 이상
70B+ (대형) llama3.1:70b 64GB 서버급 또는 고사양 PC

💡 팁: GPU(그래픽 카드)가 있으면 속도가 몇 배는 빨라집니다. NVIDIA GPU라면 CUDA를 자동으로 활용하고, Mac은 Apple Silicon(M1/M2/M3)의 Metal GPU를 자동으로 씁니다. 저는 홈랩에 RTX 3060 꽂아놨는데 체감 차이가 정말 어마어마하더라고요.

지원 운영체제

  • macOS — Apple Silicon(M 시리즈) 및 Intel Mac 모두 지원
  • Linux — Ubuntu, Debian, CentOS 등 주요 배포판
  • Windows — Windows 10/11 (WSL2 또는 네이티브 설치 가능)

Ollama 설치 방법 — OS별 완벽 가이드

Ollama 설치는 단 한 줄의 명령어로 완료됩니다 — 각 운영체제별 설치 방법을 확인하세요.

1. macOS 설치

macOS는 두 가지 방법이 있는데, 저는 Homebrew 방식을 선호합니다. 훨씬 편하거든요.

방법 1: 공식 사이트에서 dmg 다운로드

  1. ollama.com 접속
  2. "Download for macOS" 클릭
  3. dmg 파일 설치 후 Applications 폴더로 이동
  4. 앱 실행하면 메뉴바에 라마 아이콘 생성

방법 2: Homebrew로 설치 (추천)

# Homebrew가 없다면 먼저 설치
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# Ollama 설치
brew install ollama

# 서비스로 실행 (백그라운드)
brew services start ollama

2. Linux 설치

Linux는 진짜 간단합니다. 한 줄이면 끝나거든요.

# 공식 설치 스크립트 실행
curl -fsSL https://ollama.com/install.sh | sh

이 스크립트가 알아서 systemd 서비스로 등록까지 해줍니다. 설치 완료 후 서비스 상태 확인해보세요.

# 서비스 상태 확인
sudo systemctl status ollama

# 서비스가 안 떠있다면
sudo systemctl start ollama
sudo systemctl enable ollama  # 부팅 시 자동 시작

3. Windows 설치

Windows는 ollama.com에서 OllamaSetup.exe를 받아서 설치하시면 됩니다. 설치 마법사를 따라가면 되고, 설치 후 자동으로 백그라운드에서 실행됩니다.

⚠️ Windows 주의사항: Windows Defender나 백신이 설치를 막는 경우가 있습니다. 공식 사이트(ollama.com)에서 받은 거 맞는지 확인하시고, 예외 처리 해주시면 됩니다.

4. Docker로 설치 (서버 환경 추천)

서버에서 쓰실 거라면 Docker 방식이 제일 깔끔합니다. 저도 홈랩 서버에는 이 방식으로 돌리고 있어요.

# CPU만 사용하는 경우
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# NVIDIA GPU 사용하는 경우 (nvidia-container-toolkit 필요)
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Ollama 모델 다운로드 및 실행하기

첫 번째 모델 실행해보기

설치가 됐으면 이제 진짜 재밌는 부분입니다. 🎉 모델을 받아서 실제로 대화를 해볼 차례예요.

처음 시작하시는 분들께는 llama3.2:3bqwen2.5:3b를 추천합니다. 크기가 작아서 다운로드도 빠르고, 일반 PC에서도 무리 없이 돌아가거든요.

# 모델 실행 (없으면 자동으로 다운로드)
ollama run llama3.2

# 특정 크기 지정해서 실행
ollama run llama3.2:3b

# 한국어 성능 좋은 Qwen 모델
ollama run qwen2.5:7b

# 코딩 특화 모델
ollama run codellama:7b

명령어 실행하면 먼저 모델 파일을 다운로드하고, 완료되면 바로 대화 프롬프트가 뜹니다. 처음 받을 때는 파일 크기가 크니까(7B 모델 기준 약 4GB) 시간이 좀 걸립니다. 저도 처음에 "왜 이렇게 오래 걸리지?" 했었는데 한 번 받아두면 그 다음엔 바로 실행되더라고요.

자주 쓰는 Ollama 명령어 모음

# 설치된 모델 목록 확인
ollama list

# 모델 정보 확인
ollama show llama3.2

# 현재 실행 중인 모델 확인
ollama ps

# 모델만 다운로드 (실행은 나중에)
ollama pull mistral:7b

# 모델 삭제
ollama rm llama3.2

# Ollama 서버 버전 확인
ollama --version

API로 사용하기 — 다른 앱과 연동

Ollama는 기본적으로 11434 포트에서 REST API(HTTP 기반 인터페이스)를 제공합니다. OpenAI API와 호환되는 엔드포인트도 있어서 기존에 OpenAI로 만든 앱을 Ollama로 교체하기도 쉽습니다.

# 기본 API 호출 (curl 사용)
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "안녕하세요! 간단하게 자기소개 해주세요.",
  "stream": false
}'

# OpenAI 호환 API 형식으로 호출
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [
      {"role": "user", "content": "파이썬으로 Hello World 출력하는 코드 작성해줘"}
    ]
  }'

# Python으로 사용하는 경우 (ollama 라이브러리)
pip install ollama
# Python 코드 예시
import ollama

response = ollama.chat(
    model='llama3.2',
    messages=[
        {'role': 'user', 'content': '머신러닝이 뭔지 간단히 설명해줘'}
    ]
)

print(response['message']['content'])

⚠️ 실제로 겪었던 문제들과 해결 방법

삽질 경험을 공유하는 게 이 블로그의 존재 이유 중 하나니까요 ㅎㅎ 제가 실제로 마주쳤던 문제들 정리해드립니다.

문제 1: 모델이 너무 느려요

증상: 토큰(Token, AI가 생성하는 텍스트 단위)이 초당 1~2개밖에 안 나옴

원인: GPU를 못 쓰고 CPU만 사용 중인 경우가 대부분입니다.

# GPU 사용 여부 확인
ollama ps
# NAME 옆에 GPU 정보가 표시되면 GPU 사용 중

# NVIDIA GPU 드라이버 확인
nvidia-smi

# CUDA 버전 확인
nvcc --version

NVIDIA GPU가 있는데 GPU를 안 쓴다면, CUDA 드라이버 버전이 안 맞는 경우가 많습니다. NVIDIA 공식 사이트에서 최신 드라이버 받아서 재설치하면 대부분 해결되더라고요.

문제 2: "Error: model not found" 오류

# 모델명 오타 확인 — 정확한 모델명은 ollama.com/library에서 확인
ollama run llama3.2  # O
ollama run llama3    # 이렇게 하면 안 될 수 있음

# 사용 가능한 모델 태그 확인
ollama show llama3.2

문제 3: 포트 11434가 이미 사용 중

# 포트 사용 프로세스 확인 (Linux/Mac)
lsof -i :11434

# 기존 ollama 프로세스 종료
pkill ollama

# 다시 시작
ollama serve

문제 4: 디스크 공간이 부족해요

7B 모델 하나가 4~5GB입니다. 여러 모델 받다 보면 금방 꽉 차더라고요. 기본적으로 모델은 아래 경로에 저장됩니다.

# 모델 저장 경로
# macOS: ~/.ollama/models
# Linux: ~/.ollama/models
# Windows: C:\Users\사용자명\.ollama\models

# 저장 위치 변경 (환경변수 설정)
export OLLAMA_MODELS=/data/ollama/models  # Linux/Mac
# Windows는 시스템 환경변수에 OLLAMA_MODELS 추가

# 안 쓰는 모델 삭제
ollama rm mistral:7b

문제 5: 한국어 응답 품질이 낮아요

이건 모델 선택의 문제인 경우가 많습니다. 한국어 성능 기준으로 추천 순위를 알려드리면...

  • 🥇 Qwen2.5 — 중국 알리바바 모델인데 한국어 성능이 꽤 좋습니다
  • 🥈 Llama3.1 — 최신 Meta 모델, 한국어도 무난합니다
  • 🥉 Mistral — 프랑스 Mistral AI 모델, 준수한 수준
# 한국어 성능 좋은 모델들
ollama run qwen2.5:7b
ollama run llama3.1:8b
ollama run mistral:7b

설치 완료! 실제로 잘 작동하는지 확인해봐요

Ollama로 로컬 AI 모델과 대화하는 실제 터미널 화면 — 인터넷 없이 내 PC에서 AI가 응답합니다.

드디어 됐다! 🎉 다 설치하셨으면 아래 순서로 제대로 동작하는지 확인해보세요.

기본 동작 확인

# 1. Ollama 서버 상태 확인
curl http://localhost:11434
# {"status":"Ollama is running"} 이 뜨면 정상

# 2. 설치된 모델 목록 확인
ollama list

# 3. 간단한 질문으로 테스트
ollama run llama3.2 "안녕? 오늘 날씨 어때?"

# 4. API 응답 확인
curl http://localhost:11434/api/tags

Open WebUI 연결하기 — 브라우저에서 ChatGPT처럼 사용

터미널에서 쓰는 것도 좋지만, 브라우저에서 ChatGPT처럼 쓰고 싶으시다면 Open WebUI를 연결하면 됩니다. Docker만 있으면 5분 안에 세팅 가능해요.

# Open WebUI 설치 및 실행
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

# 브라우저에서 http://localhost:3000 접속

이렇게 하면 진짜 ChatGPT 같은 인터페이스로 Ollama 모델들을 쓸 수 있습니다. 처음 접속하면 회원가입(로컬 계정)을 하고, 모델을 선택해서 대화하면 끝이에요. 이거 세팅하고 가족들한테 보여줬더니 반응이 꽤 좋았습니다 ㅎㅎ

자주 묻는 질문 (FAQ)

Q. Ollama 사용법이 어렵지 않나요?

생각보다 훨씬 쉽습니다. 터미널에서 ollama run 모델명 한 줄이면 바로 대화할 수 있어요. Docker나 쿠버네티스처럼 복잡한 설정이 필요 없거든요.

Q. GPU 없어도 쓸 수 있나요?

네, CPU만으로도 작동합니다. 다만 속도가 많이 느릴 수 있어요. 7B 모델 기준으로 CPU만 쓰면 토큰 생성이 초당 2~5개 수준이라 좀 답답할 수 있습니다. 3B 이하 소형 모델로 시작하시는 걸 추천드려요.

Q. 로컬 LLM 실행 시 개인정보 보호가 확실한가요?

네, 모델 다운로드 이후에는 완전히 오프라인으로 동작합니다. 대화 내용이 외부로 전송되지 않아서, 회사 내부 문서나 민감한 정보를 다룰 때 특히 유용하더라고요.

Q. Ollama 모델 다운로드는 어디서 하나요?

ollama.com/library에서 사용 가능한 모든 모델을 확인할 수 있습니다. 현재 수십 가지 이상의 모델이 올라와 있고, 계속 추가되고 있어요.

Q. 모델 업데이트는 어떻게 하나요?

# 특정 모델 업데이트
ollama pull llama3.2

# 모든 모델 업데이트 (bash 스크립트)
ollama list | tail -n +2 | awk '{print $1}' | xargs -I {} ollama pull {}

마무리 — Ollama 로컬 AI, 이제 시작해보세요

Ollama 설치부터 모델 실행까지 전체 흐름 요약 — 오늘 배운 내용을 한눈에 정리해보세요.

오늘 다룬 내용을 정리해볼게요.

  • Ollama가 무엇인지 — 로컬에서 LLM을 실행하는 플랫폼
  • OS별 설치 방법 — macOS, Linux, Windows, Docker
  • 모델 다운로드 및 실행 — Ollama 모델 실행 명령어 한 줄
  • API 활용 — REST API 및 Python 연동
  • 트러블슈팅 — 실제 겪었던 문제들과 해결법
  • Open WebUI 연동 — 브라우저에서 ChatGPT처럼 사용

처음엔 "내 PC에서 AI가 돌아간다고?" 반신반의했는데, 실제로 써보면 생각보다 훨씬 쓸만합니다. 특히 코딩 관련 작업이나 문서 요약에서는 정말 도움이 많이 되더라고요.

물론 GPT-4 같은 최신 상용 모델을 완전히 대체하기는 어렵습니다. 근데 프라이버시가 중요한 작업, 오프라인 환경, API 비용 절감이 필요한 상황에서는 Ollama 로컬 AI가 정말 좋은 선택이 될 수 있어요.

다음 글에서는 Ollama와 LangChain(랭체인, LLM 애플리케이션 개발 프레임워크)을 연동해서 나만의 AI 챗봇을 만드는 방법을 다룰 예정입니다. 그리고 Modelfile을 사용해서 커스텀 모델을 만드는 방법도 준비 중이에요. 혹시 궁금한 점이나 추가로 다뤘으면 하는 내용이 있다면 댓글로 알려주세요!