[AI] MLX와 GGUF로 맥북에서 LLM 로컬 실행하기: Apple Silicon 실측 벤치마크

GGUF 모델, MLX 프레임워크로 맥북에서 LLM 돌리기: 실측 벤치마크
MLX와 GGUF, 왜 맥북에서 온디바이스 AI를 돌리는가?
MLX 프레임워크란 무엇인가?
GGUF 모델 포맷의 이해
맥북에서 GGUF 모델과 MLX로 LLM 실행하기: 실전 가이드
1단계: MLX 설치
2단계: GGUF 모델 다운로드
3단계: MLX로 GGUF 모델 로드 및 실행
⚠️ 주의사항 및 삽질 경험
실측 벤치마크 결과: 성능은 어느 정도일까?
마무리하며: 맥북에서의 LLM 온디바이스 AI 실행, 충분히 가능합니다!

GGUF 모델, MLX 프레임워크로 맥북에서 LLM 돌리기: 실측 벤치마크

안녕하세요, 13년차 서버실의 기록을 이어가고 있는 엔지니어입니다. 요즘 집에서 홈랩(Home Lab)을 운영하면서 개인 서버에 이것저것 구축하는 재미에 푹 빠져있는데요. 특히 거실 한쪽을 차지한 맥 스튜디오(Mac Studio)에 대규모 언어 모델(Large Language Model, LLM)을 직접 돌려보는 것에 도전하고 있습니다. 처음엔 '과연 맥북에서도 LLM이 돌아갈까?' 싶었는데, MLX(MLX Framework)라는 프레임워크를 알게 되면서 세상이 달라졌거든요. 오늘은 이 MLX와 GGUF 모델을 활용해서 제 맥북에서 LLM을 직접 돌려보고, 그 성능을 측정한 벤치마크 결과를 여러분과 공유하려 합니다. 혹시 여러분도 맥북에서 LLM 로컬 실행에 관심 있으셨다면, 이 글이 좋은 가이드가 될 거예요!

맥북에서 MLX와 GGUF 모델을 사용한 LLM 로컬 실행 아키텍처 개요

MLX 프레임워크를 사용한 LLM 로컬 실행 아키텍처 개요

MLX와 GGUF, 왜 맥북에서 온디바이스 AI를 돌리는가?

최근 LLM 기술이 정말 빠르게 발전하고 있죠. ChatGPT 같은 클라우드 기반 서비스도 훌륭하지만, 때로는 온디바이스 AI(On-device AI), 즉 내 기기에서 직접 LLM을 구동하고 싶을 때가 있습니다. 개인정보 보호 문제도 있고, 인터넷 연결 없이도 사용하고 싶을 때, 혹은 단순한 기술적 호기심 때문일 수도 있고요. 특히 Apple Silicon(M1, M2, M3 칩 등)이 탑재된 맥북은 GPU 성능이 뛰어나서 LLM 로컬 실행에 대한 기대감이 높았습니다. 하지만 macOS 환경에서 LLM을 효율적으로 돌릴 수 있는 프레임워크가 마땅치 않았죠. 바로 이때 MLX가 등장했습니다. MLX는 Apple Silicon 최적화된 파이썬 기반 머신러닝 프레임워크거든요. 그리고 GGUF는 LLM 모델을 효율적으로 저장하고 불러오는 데 사용되는 파일 형식인데, MLX가 GGUF 포맷을 지원하면서 맥북에서의 LLM 실행이 훨씬 수월해졌습니다. 쉽게 말해, MLX는 맥북용 LLM 엔진이고, GGUF는 그 엔진이 읽을 수 있는 LLM 모델 파일이라고 생각하시면 됩니다.

MLX 프레임워크란 무엇인가?

MLX는 Apple에서 개발한 머신러닝 라이브러리로, Apple Silicon 칩의 성능을 최대한 끌어내기 위해 설계되었습니다. 파이썬 친화적인 API를 제공해서 기존 파이썬 개발자들이 쉽게 접근할 수 있다는 게 큰 장점이에요. 가장 큰 특징은 자동 미분(Automatic Differentiation) 기능을 지원하며, GPU 가속을 기본으로 활용한다는 점입니다. 즉, 복잡한 연산이 필요한 LLM 모델을 맥북의 GPU를 사용해서 훨씬 빠르게 처리할 수 있게 해주는 거죠. 저도 처음엔 '이게 진짜 돌아가겠어?' 싶었는데, 실제로 사용해보니 정말 놀라웠습니다. 메모리 관리도 효율적이라서, 제 맥북의 통합 메모리(Unified Memory)를 잘 활용하는 모습이 인상 깊었거든요.

GGUF 모델 포맷의 이해

GGUF(GPT-Generated Unified Format)는 LLM 모델을 저장하기 위한 파일 형식입니다. 이전에는 GGML이라는 포맷도 있었는데, GGUF는 이를 개선해서 호환성과 확장성을 높였어요. GGUF 포맷은 모델의 가중치(weights)뿐만 아니라, 모델의 구조, 설정값, 토크나이저(tokenizer) 정보까지 하나의 파일에 담을 수 있습니다. 덕분에 LLM 모델 파일을 배포하고 사용하는 것이 훨씬 간편해졌죠. 또한, GGUF는 양자화(Quantization)를 지원하는데, 이는 모델의 크기를 줄이고 추론 속도를 높이는 기술입니다. 예를 들어, 16비트 부동소수점(FP16)으로 저장된 모델을 4비트 정수(INT4)로 양자화하면 모델 파일 크기가 1/4로 줄어들고, 메모리 사용량도 크게 감소합니다. MLX는 이러한 GGUF 포맷의 양자화된 모델들을 정말 잘 지원합니다. 덕분에 제 맥북의 제한된 메모리에서도 큰 LLM 모델을 로드할 수 있었던 것이죠.

MLX와 GGUF를 이용한 LLM 로컬 실행 코드 예시

맥북에서 GGUF 모델과 MLX로 LLM 실행하기: 실전 가이드

자, 이제 이론적인 설명은 충분했고, 실제로 어떻게 하는지 보여드릴 차례입니다. 제가 사용한 환경은 다음과 같습니다.

맥북 모델: M2 Pro (16GB 통합 메모리)
macOS 버전: 최신 버전
Python 버전: 3.9 이상
MLX 설치: pip install mlx-lm
GGUF 모델: Hugging Face 등에서 공개된 GGUF 포맷 모델 (예: Llama 2, Mistral 등)

1단계: MLX 설치

가장 먼저 MLX를 설치해야 합니다. 터미널을 열고 다음 명령어를 실행해주세요.

pip install mlx-lm

정말 간단하죠? MLX는 Apple Silicon에 최적화되어 있어서 설치도 빠릅니다.

2단계: GGUF 모델 다운로드

다음으로 실행하고 싶은 LLM 모델을 GGUF 포맷으로 다운로드해야 합니다. Hugging Face Hub에는 정말 많은 GGUF 모델들이 공개되어 있어요. 예를 들어, Mistral 7B 모델의 GGUF 버전을 다운로드하려면 Hugging Face에서 "mistral gguf"으로 검색하면 됩니다. 원하는 모델의 크기(7B, 13B 등)와 양자화 수준(Q4_K_M, Q5_K_M 등)을 고려해서 선택하세요. 저는 제 16GB 메모리에 맞는 Q4_K_M 버전을 선택했습니다.

모델 파일을 다운로드 받은 후, 적당한 경로에 저장해둡니다. 예를 들어 <code>~/models/ 폴더에 저장했다고 가정하겠습니다.

3단계: MLX로 GGUF 모델 로드 및 실행

이제 파이썬 스크립트를 작성해서 MLX로 모델을 불러오고 실행해볼 차례입니다. 아래는 간단한 예제 코드입니다.

from mlx_lm.models import load
from mlx_lm.utils import generate, load_config

# 모델 경로 설정 (다운로드 받은 GGUF 파일의 경로)
model_path = "mistral-7b-instruct-v0.2-GGUF"

# GGUF 모델 로드
model, tokenizer = load(model_path)

# 프롬프트 설정
prompt = """맥북에서 LLM을 로컬로 실행하는 방법에 대해 설명해줘."""

# 텍스트 생성 (추론)
print("Generating response...")
response = generate(
    model, 
    tokenizer, 
    prompt=prompt,
    max_tokens=200,
    temp=0.7,
    top_p=0.9,
    verbose=True
)

print("\n--- Generated Response ---")
print(response)
print("------------------------")

이 코드를 실행하면 다운로드 받은 GGUF 모델을 로드하고, 입력한 프롬프트에 대한 응답을 생성합니다. MLX는 자동으로 Apple Silicon의 GPU를 활용해서 연산을 가속하거든요. 처음 이 코드를 실행하고 결과를 봤을 때, '와, 진짜 되는구나!' 싶어서 정말 신났습니다.

⚠️ 주의사항 및 삽질 경험

여기까지 잘 따라오셨다면 큰 문제는 없겠지만, 저도 처음엔 몇 가지 시행착오를 겪었습니다. 몇 가지 주의사항과 제 삽질 경험을 공유해 드릴게요.

메모리 부족 문제: 제 맥북은 16GB 메모리인데, 7B 모델의 Q4_K_M 버전은 무리 없이 돌아갔습니다. 하지만 13B 모델이나 더 높은 양자화 버전(Q5, Q8)은 메모리 부족으로 로딩이 안 되거나 매우 느려질 수 있어요. 이럴 때는 더 낮은 양자화 버전(Q3, Q2)을 사용하거나, 모델 크기를 줄여야 합니다.
MLX 버전 호환성: MLX는 계속 발전하고 있기 때문에, 특정 버전에서는 API가 변경될 수 있습니다. 만약 코드가 작동하지 않는다면, MLX 라이브러리를 최신 버전으로 업데이트해보세요. pip install --upgrade mlx-lm
GGUF 모델 종류: 모든 GGUF 모델이 MLX와 완벽하게 호환되는 것은 아닙니다. 특히 Llama, Mistral 계열은 잘 작동하지만, 아주 최신이거나 특이한 구조의 모델은 문제가 있을 수 있어요. Hugging Face 모델 페이지의 설명을 잘 읽어보고, 다른 사용자들이 MLX에서 잘 사용했는지 후기를 찾아보는 것이 좋습니다.
GPU 활용 확인: 코드를 실행할 때, Activity Monitor를 열어 GPU 사용률을 확인해보세요. MLX가 GPU를 제대로 활용하고 있다면, GPU 사용률이 높게 나타날 거예요. 만약 CPU만 사용되고 있다면, MLX 설치나 코드에 문제가 있을 수 있습니다.

이런 문제들 때문에 처음엔 몇 번이나 다시 설치하고 코드를 수정해야 했지만, 결국 성공했을 때의 희열은 정말 컸습니다. 여러분도 이런 과정을 통해 더 깊이 이해하게 될 거예요!

MLX와 GGUF를 사용한 LLM 로컬 실행 결과 및 성능 지표

실측 벤치마크 결과: 성능은 어느 정도일까?

가장 궁금하실 부분일 텐데요, 제 맥북 M2 Pro (16GB)에서 Mistral 7B Instruct v0.2 (Q4_K_M) 모델을 MLX로 실행했을 때의 성능입니다. 정확한 수치는 실행 환경과 설정에 따라 달라질 수 있지만, 대략적인 체감 성능은 이렇습니다.

테스트 시나리오: 간단한 질문-답변 프롬프트, 200 토큰 생성

결과:

생성 속도 (Tokens/Second): 평균 15~25 tokens/sec 사이가 나왔습니다.
GPU 활용률: 약 70~90% 수준으로 꾸준히 사용되었습니다.
메모리 사용량: 모델 로딩 시 약 6~7GB, 추론 시에는 8~10GB 수준으로 통합 메모리를 사용했습니다.

이 정도 속도면 일상적인 질문이나 간단한 텍스트 생성에는 충분히 활용 가능한 수준이라고 봅니다. 물론 ChatGPT 같은 최신 클라우드 서비스의 응답 속도에는 미치지 못하지만, 로컬에서 이 정도 성능을 보여준다는 것 자체가 정말 대단하다고 느껴집니다. 특히 인터넷 연결 없이, 개인정보 유출 걱정 없이 LLM을 사용할 수 있다는 점은 정말 큰 매력입니다. Apple Silicon의 성능을 제대로 활용하는 MLX 덕분에 이런 경험이 가능해졌네요.

MLX vs llama.cpp 등 다른 로컬 LLM 실행 방식 성능 비교 (개략적)

마무리하며: 맥북에서의 LLM 온디바이스 AI 실행, 충분히 가능합니다!

오늘은 13년차 인프라 엔지니어의 시선으로, MLX 프레임워크와 GGUF 모델을 활용하여 맥북에서 LLM을 로컬 실행하는 방법과 그 성능을 실측 벤치마크로 공유해드렸습니다. 처음엔 '맥북으로 LLM이라니...' 싶었지만, MLX 덕분에 Apple Silicon의 강력한 GPU 성능을 활용하여 정말 놀라운 경험을 할 수 있었습니다. 15~25 tokens/sec 정도의 속도로, 16GB 메모리 환경에서도 7B 모델을 충분히 돌려볼 수 있다는 것은 정말 고무적이거든요.

물론 아직은 클라우드 기반 LLM의 속도나 최신 모델 지원 면에서는 부족한 점이 있을 수 있습니다. 하지만 개인정보 보호, 인터넷 연결 없이 사용 가능, 비용 절감, 그리고 무엇보다 기술 자체에 대한 탐구심을 충족시켜준다는 점에서 맥북에서의 LLM 로컬 실행은 충분히 가치 있는 도전이라고 생각합니다. 여러분도 이 글을 참고하셔서 여러분의 맥북에서 직접 온디바이스 AI를 경험해보시길 바랍니다!

다음 글에서는 MLX의 더 advanced한 기능이나, 다른 GGUF 모델들을 더 다양하게 테스트해본 후기로 찾아오겠습니다. 혹시 궁금한 점이 있다면 언제든지 댓글 남겨주세요!

'IT > AI' 카테고리의 다른 글

[AI] Ollama 로컬 LLM 성능 벤치마크: NPU/GPU 가속 효과 분석 (0)	2026.06.01
[LLM 활용] 프롬프트 엔지니어링 실패? 흔히 저지르는 실수와 해결 전략 5가지 (0)	2026.06.01
[AI] 중소기업을 위한 Claude 활용 사례: 업무 자동화 및 비용 절감 전략 (0)	2026.05.31
[AI] AI 코딩 도우미 Cursor IDE 1년 사용 후기: 개발 생산성 변화 분석 (1)	2026.05.27
[ComfyUI] 워크플로우 오류? Stable Diffusion 문제 해결 가이드 (0)	2026.05.25
[AI] Ollama 1년 실사용 회고: 로컬 LLM 개발, 기대와 현실 사이 (0)	2026.05.25

13년차의 서버실

[AI] MLX와 GGUF로 맥북에서 LLM 로컬 실행하기: Apple Silicon 실측 벤치마크

목차

GGUF 모델, MLX 프레임워크로 맥북에서 LLM 돌리기: 실측 벤치마크

MLX와 GGUF, 왜 맥북에서 온디바이스 AI를 돌리는가?

MLX 프레임워크란 무엇인가?

GGUF 모델 포맷의 이해