본문 바로가기

Python6

[AI] vLLM 실전 가이드: 고성능 LLM 추론 및 API 서빙 최적화 목차vLLM, 도대체 뭘까요? (feat. PagedAttention)vLLM, 실전에서 써봅시다! (설치부터 API 서빙까지)1. vLLM 설치2. LLM 모델 로드 및 API 서버 실행3. API 요청 보내기⚠️ 삽질 경험담: GPU 메모리 부족과 버전 호환성vLLM, 얼마나 빨라졌을까? (성능 검증)1. GPU 사용량 모니터링2. 처리량 비교마무리: vLLM, LLM 서비스의 핵심 병기!안녕하세요, 13년차 서버실 지킴이입니다. 🤓요즘 LLM(Large Language Model, 대규모 언어 모델)을 활용한 서비스들이 정말 많아졌죠? 저도 홈랩에서 이것저것 돌려보면서 LLM이 우리의 일상을 어떻게 바꿀지 매일매일 흥미진진하게 지켜보고 있습니다. 그런데 이 LLM이라는 친구, 성능은 기가 막히지만.. 2026. 5. 9.
[AI] Gemini API 실전 활용 가이드: 멀티모달 기능으로 AI 서비스 구축하기 목차Gemini API 실전 활용 가이드: 멀티모달 AI 서비스 구축하기1. Gemini API, 무엇이 그렇게 특별할까요?2. Google AI Studio에서 Gemini API 시작하기3. Python으로 Gemini API 실전 구현: 멀티모달 챗봇 만들기4. 삽질 경험: API Rate Limit과 Token 제한5. 결과 확인 및 활용 아이디어6. 마무리하며: 경험이 곧 자산Gemini API 실전 활용 가이드: 멀티모달 AI 서비스 구축하기안녕하세요, 13년차의 서버실 주인장, 인프라 엔지니어입니다. 요즘 AI 기술 발전 속도가 정말 무섭다는 생각이 들어요. 특히 Gemini API가 등장하면서 텍스트뿐만 아니라 이미지, 오디오, 비디오까지 한 번에 처리하는 멀티모달 AI(Multimodal.. 2026. 4. 30.
[AI] RAG 실전 구현 가이드: LLM 환각 현상 줄이고 최신 정보 활용하기 목차RAG 실전 구현 가이드: LLM 환각 현상 줄이고 최신 정보 활용하기1. LLM 환각 현상, 왜 발생할까요? 그리고 RAG가 답입니다!2. RAG 구현을 위한 핵심 요소: LangChain과 벡터 데이터베이스3. RAG 실전 구현: 단계별 가이드 (Python & LangChain)4. 주의사항 및 트러블슈팅 ⚠️5. 검증 및 결과 확인6. 마무리하며: RAG, LLM 활용의 새로운 지평을 열다RAG 실전 구현 가이드: LLM 환각 현상 줄이고 최신 정보 활용하기안녕하세요, 13년차 서버실의 인프라 엔지니어입니다. 요즘 인공지능(AI) 분야는 정말 눈 깜짝할 사이에 발전하고 있죠. 특히 대규모 언어 모델(Large Language Model, LLM)은 놀라운 성능으로 우리의 삶과 업무 방식을 바꾸.. 2026. 4. 29.
[HomeLabs] Home Assistant를 텔레그램으로 제어하기: Gemini AI 자연어 스마트홈 봇 만들기 Home Assistant를 텔레그램으로 제어하기: Gemini AI 자연어 스마트홈 봇 만들기"거실 불 꺼줘"라고 텔레그램에 보내면 집의 조명이 꺼진다면? Home Assistant(이하 HA)를 사용하면서 항상 아쉬웠던 점이 있었습니다. 외출 중에 기기를 제어하려면 HA 앱을 열어야 하고, 자동화를 확인하려면 웹 UI에 접속해야 했거든요. 특히 아내에게 "HA 대시보드에서 거실 에어컨 entity 찾아서 꺼줘"라고 말할 수는 없잖아요.그래서 텔레그램 봇 + Google Gemini AI를 조합해서, 자연어로 스마트홈을 제어할 수 있는 봇을 만들었습니다. Proxmox 홈랩의 Docker 컨테이너 하나로 돌아가고, 메모리도 50~80MB밖에 안 먹습니다.완성된 봇이 할 수 있는 것이 봇으로 할 수 있는.. 2026. 4. 5.
[HomeLab] 방구석 천재 AI에게 '인터넷(Web Search)'이라는 무기를 쥐여주다 (3부/완결) 반갑습니다, 수누다입니다.지난 2부에서 Python과 Docker로 나만의 '구름이(ChatBot)'를 만드는 데 성공했죠.프레임워크 걷어내고 직접 짜니 속도도 빠르고 아주 쾌적했습니다. 그런데 며칠 데리고 놀다 보니 치명적인 단점이 보이더군요.Me: 구름아, 오늘 삼성전자 주가 얼마야?Gureum: 죄송해요. 저는 2023년까지의 데이터만 학습해서 최신 정보는 알 수 없어요. 😅그렇습니다. 제 로컬 PC에 갇혀 있는 Llama 3.1은 세상과 단절된 '방구석 천재'였습니다.오늘 날씨도, 어제 나온 기술 뉴스도 모르는 녀석을 진정한 '비서'라고 부르긴 좀 민망하죠.자, 이제 이 녀석에게 인터넷을 연결해 줄 차례입니다.거창하게 RAG(검색 증강 생성)나 Vector DB까지 갈 필요 없습니다. 우리에겐 .. 2026. 2. 7.
[HomeLab] 돌고 돌아 순정! Python과 Docker로 3분 만에 AI 봇 구축하기 (2부) 반갑습니다, 수누다입니다.지난 1부에서 거창한 프레임워크인 OpenClaw를 도입했다가, '로그 분석관'이 튀어나오는 참사를 겪고 컨테이너를 날려버렸다는 이야기 전해드렸죠.엔지니어 생활 13년 하면서 느낀 불변의 진리가 하나 있습니다."튜닝의 끝은 순정이다."내 마음대로 제어가 안 되는 블랙박스(프레임워크)를 붙들고 씨름할 바엔, 차라리 바닥부터 직접 짜는 게 훨씬 빠르고 속 편할 때가 많습니다. 오늘은 그 '순정 봇'을 만드는 과정을 공유합니다.준비물은 딱 두 개면 됩니다. Python, 그리고 Docker.(제 PC엔 파이썬도 안 깔려 있습니다만, 우리에겐 도커가 있으니 상관없습니다.)1. 아키텍처 다이어트 (Refactoring)1부의 그 복잡했던 구조도에서 미들웨어를 다 걷어냈습니다.중간에 에이전.. 2026. 2. 6.