Ollama 설치 가이드: 윈도우·맥·리눅스 로컬 LLM 완전 실행 2026
핵심 요약: Ollama는 로컬 컴퓨터에서 오픈소스 AI 모델을 단 한 줄의 명령어로 설치하고 실행할 수 있는 무료 오픈소스 도구입니다. DeepSeek-R1, Llama 4, Gemma 3, Phi-4, GLM-4 등 100개 이상의 AI 모델을 지원하며, Docker처럼 간단한 명령어 체계를 제공합니다. Windows, macOS, Linux 모두 지원하며, 한 번 설치하면 인터넷 없이도 AI를 사용할 수 있습니다.
Ollama란? 1분 설치로 시작하는 로컬 AI
Ollama는 2023년 등장한 오픈소스 프로젝트로, "AI를 위한 Docker"라고 불릴 만큼 모델 설치와 관리를 극적으로 단순화했습니다. 기존에는 Python 환경 설정, CUDA 드라이버 설치, 모델 양자화 등 복잡한 과정이 필요했지만, Ollama를 사용하면 ollama run llama4 한 줄로 최신 AI 모델을 즉시 실행할 수 있습니다.
Ollama는 llama.cpp를 기반으로 하며, CPU만 있는 환경에서도 실행되고, NVIDIA GPU, AMD GPU, Apple Silicon GPU를 자동으로 감지하여 최적화된 성능을 제공합니다. 또한 OpenAI 호환 API를 내장하고 있어 기존 GPT-4 코드를 수정 없이 로컬 모델에 연결할 수 있습니다.
수
시간
오픈소스
AI 사용
Ollama 지원 주요 모델 목록
인기 모델
ollama pull deepseek-r1
1.5B~671B
ollama pull llama4
Scout·Mav
ollama pull gemma3
1B~27B
ollama pull phi4
14B
특화 모델
ollama pull glm4
한국어 강자
ollama pull mistral
코딩 특화
ollama pull minicpm-v
초경량 멀티모달
ollama pull yi
6B·9B·34B
Windows 설치 방법 — 완전 단계별 가이드
Windows 10/11에서 Ollama 설치는 매우 간단합니다. NVIDIA GPU가 있다면 자동으로 CUDA 가속이 활성화되고, GPU가 없어도 CPU로 실행할 수 있습니다.
Windows 설치 단계
Ollama 다운로드
ollama.com/download/windows에서 OllamaSetup.exe 다운로드
설치 프로그램 실행
OllamaSetup.exe 더블클릭 → "Install" 클릭 → 자동 설치 완료
PowerShell 또는 명령 프롬프트 열기
ollama --version # 버전 확인
원하는 AI 모델 설치 및 실행
# 가벼운 모델부터 시작 (권장)
ollama run gemma3:4b # 4B · RAM 4GB 필요
ollama run deepseek-r1:7b # 7B · RAM 8GB 필요
ollama run llama4:scout # Scout · RAM 8GB 필요
Windows 환경 변수 설정 (선택)
# 모델 저장 위치 변경 (기본: C:\Users\{사용자}\.ollama)
[Environment]::SetEnvironmentVariable("OLLAMA_MODELS", "D:\AI\models", "User")
# 외부 접속 허용 (다른 기기에서 접속)
[Environment]::SetEnvironmentVariable("OLLAMA_HOST", "0.0.0.0", "User")
# GPU 레이어 수 조정 (VRAM 부족 시)
[Environment]::SetEnvironmentVariable("OLLAMA_NUM_GPU", "20", "User")
macOS 설치 방법 — Apple Silicon 완전 지원
macOS에서 Ollama는 Apple Silicon(M1~M4)의 Metal GPU 가속을 완벽히 지원합니다. MacBook Air(8GB RAM)에서도 소형 모델을 빠르게 실행할 수 있습니다.
# macOS 설치 방법 (3가지)
# 방법 1: 공식 다운로드 (권장)
# ollama.com/download/mac 에서 Ollama.zip 다운로드
# 압축 해제 후 응용 프로그램 폴더로 이동
# 방법 2: Homebrew
brew install ollama
brew services start ollama
# 방법 3: 원라인 스크립트
curl -fsSL https://ollama.com/install.sh | sh
# 설치 확인
ollama --version
# 첫 번째 모델 실행
ollama run gemma3:4b
# "안녕하세요! 무엇을 도와드릴까요?" 입력으로 대화 시작
Mac RAM별 추천 모델
macOS 성능 최적화
- • Metal GPU 자동 감지 및 가속
- • 배터리 절약: CPU 모드 강제 설정
- • 에너지 절약 모드 해제 시 30% 성능↑
- • 충전 중 사용 시 최고 성능
Linux 설치 방법 — NVIDIA/AMD GPU 완전 지원
Linux는 Ollama를 가장 강력하게 활용할 수 있는 플랫폼입니다. NVIDIA CUDA와 AMD ROCm을 자동으로 감지하며, 서버 환경에서 여러 사용자가 동시에 접속하는 AI 서비스를 구축할 수 있습니다.
# Linux 완전 설치 및 설정 가이드
# 1. Ollama 원라인 설치 (Ubuntu/Debian/CentOS 모두 지원)
curl -fsSL https://ollama.com/install.sh | sh
# 2. 서비스 상태 확인
sudo systemctl status ollama
# 3. 모델 설치 및 실행
ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b
# 4. 외부 접속 허용 (서버 운영 시)
sudo systemctl edit ollama
# 아래 내용 추가:
# [Service]
# Environment="OLLAMA_HOST=0.0.0.0"
sudo systemctl restart ollama
# 5. Open WebUI 설치 (웹 UI)
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
# http://localhost:3000 접속 → ChatGPT 스타일 UI
Linux 서버 활용 시나리오
팀 AI 서버 구성
- • 회사 내부 네트워크 AI 서버
- • 외부 연결 없는 보안 AI 환경
- • 여러 팀원 동시 사용 가능
개발 환경 구성
- • VS Code + Continue 플러그인 연동
- • CI/CD 파이프라인 AI 통합
- • API 서버로 앱 개발에 활용
Ollama API 완전 활용 가이드
Ollama는 OpenAI 호환 REST API를 내장하고 있어 Python, JavaScript, Go, Rust 등 어떤 언어로도 연동할 수 있습니다. 기존 GPT-4 코드에서 base_url만 바꾸면 바로 사용 가능합니다.
# Ollama Python API 다양한 활용 예제
# 방법 1: 공식 ollama Python 라이브러리
pip install ollama
import ollama
# 기본 대화
response = ollama.chat(
model='deepseek-r1:7b',
messages=[{'role': 'user', 'content': '한국어로 간단한 시를 써주세요.'}]
)
print(response['message']['content'])
# 스트리밍 (실시간 출력)
for chunk in ollama.chat(
model='llama4:scout',
messages=[{'role': 'user', 'content': '파이썬 소트 알고리즘 설명해줘'}],
stream=True
):
print(chunk['message']['content'], end='', flush=True)
# 방법 2: OpenAI 호환 API (기존 코드 재사용)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 로컬이므로 임의값 사용
)
# 기존 GPT-4 코드 그대로 사용 가능!
response = client.chat.completions.create(
model="gemma3:9b",
messages=[
{"role": "system", "content": "한국어 전문 AI 어시스턴트입니다."},
{"role": "user", "content": "2026년 AI 트렌드를 분석해주세요."}
]
)
print(response.choices[0].message.content)
Open WebUI — ChatGPT 스타일 웹 인터페이스
Ollama와 함께 Open WebUI를 설치하면 ChatGPT와 똑같은 웹 인터페이스로 로컬 AI를 사용할 수 있습니다. 대화 기록 저장, 다중 모델 전환, 파일 업로드 등의 기능을 제공합니다.
Open WebUI 주요 기능
- • 다중 모델 동시 비교 대화
- • 대화 기록 영구 저장
- • PDF·문서 파일 업로드 분석
- • 시스템 프롬프트 템플릿
- • 다국어 UI (한국어 포함)
Ollama 생태계 도구
- • Continue: VS Code AI 코딩 플러그인
- • Msty: macOS 네이티브 UI
- • Enchanted: iOS/macOS 앱
- • Anything LLM: RAG 문서 검색
Ollama 자주 묻는 질문 및 문제 해결
Q: 모델 다운로드가 느리거나 중단됩니다
Hugging Face 서버에 접속하는 속도가 느린 경우입니다. VPN07의 1000Mbps 연결을 사용하면 안정적인 속도로 모델을 다운로드할 수 있습니다. 다운로드가 중단되어도 ollama pull을 다시 실행하면 이어받기가 됩니다.
Q: VRAM 부족 오류가 발생합니다
더 작은 모델(예: 7B→3B)을 선택하거나, 양자화 레벨을 낮춰보세요. OLLAMA_NUM_GPU=0으로 CPU 모드로 전환할 수도 있습니다.
Q: Windows에서 Ollama가 실행되지 않습니다
작업 관리자에서 ollama 프로세스를 종료 후 재시작하거나, ollama serve를 명령 프롬프트에서 직접 실행해보세요.
Q: 한국어 응답이 깨지거나 부정확합니다
한국어에 최적화된 모델을 선택하세요. glm4, qwen3.5, deepseek-r1이 한국어 처리에 뛰어납니다.
Ollama 활용 팁: 네트워크 속도가 핵심
Ollama는 처음 모델을 다운로드할 때만 네트워크가 필요하며, 이후에는 완전 오프라인으로 작동합니다. 하지만 DeepSeek-R1 671B(400GB+), Llama 4 Maverick(67B, ~40GB) 등 대형 모델을 다운로드할 때는 안정적인 고속 연결이 필수입니다. VPN07의 1000Mbps 연결로 다운로드 시간을 최대 10배 단축하세요.
Ollama vs LM Studio vs vLLM — 어떤 도구를 선택할까?
로컬 AI 실행 도구는 Ollama 외에도 여러 가지가 있습니다. 각 도구의 장단점을 비교하여 본인의 사용 목적에 맞는 도구를 선택하세요.
Ollama - 사용 편의성 1위
1분 설치 · 한 줄 명령어 · 100+ 모델 지원 · OpenAI 호환 API · 완전 무료
LM Studio
GUI 전용직관적인 그래픽 인터페이스 제공. 명령어가 어색한 초보자에게 적합. 커맨드라인 자동화는 Ollama가 우수.
vLLM
서버 전용고성능 GPU 서버에서 최대 처리량을 원한다면 vLLM이 최적. 개인 PC보다는 데이터센터 환경에 적합.
VPN07 - Ollama 모델 고속 다운로드 VPN
Hugging Face · Ollama 모델 라이브러리 고속 접속 · 1000Mbps 기가급 대역폭
Ollama로 대형 AI 모델을 다운로드할 때 네트워크 속도가 체감 가장 큰 변수입니다. DeepSeek-R1 7B(4GB)는 VPN07로 약 30초, Llama 4 Scout(~10GB)는 약 1분 30초면 완료됩니다. 10년 이상 운영된 신뢰할 수 있는 VPN07은 70+개국 서버로 Ollama 모델 서버에 가장 빠르게 접속합니다. 월 $1.5, 30일 환불 보장으로 부담 없이 시작하세요.