VPN07

Ollama 설치 가이드: 윈도우·맥·리눅스 로컬 LLM 완전 실행 2026

2026-03-05 읽기 약 15분 Ollama 설치 가이드 로컬 AI

오픈소스 LLM 다운로드 센터

Ollama로 실행 가능한 DeepSeek-R1·Llama 4·Gemma 3 등 10개 모델을 한곳에서 확인하세요

모델 보기 →

핵심 요약: Ollama는 로컬 컴퓨터에서 오픈소스 AI 모델을 단 한 줄의 명령어로 설치하고 실행할 수 있는 무료 오픈소스 도구입니다. DeepSeek-R1, Llama 4, Gemma 3, Phi-4, GLM-4 등 100개 이상의 AI 모델을 지원하며, Docker처럼 간단한 명령어 체계를 제공합니다. Windows, macOS, Linux 모두 지원하며, 한 번 설치하면 인터넷 없이도 AI를 사용할 수 있습니다.

Ollama란? 1분 설치로 시작하는 로컬 AI

Ollama는 2023년 등장한 오픈소스 프로젝트로, "AI를 위한 Docker"라고 불릴 만큼 모델 설치와 관리를 극적으로 단순화했습니다. 기존에는 Python 환경 설정, CUDA 드라이버 설치, 모델 양자화 등 복잡한 과정이 필요했지만, Ollama를 사용하면 ollama run llama4 한 줄로 최신 AI 모델을 즉시 실행할 수 있습니다.

Ollama는 llama.cpp를 기반으로 하며, CPU만 있는 환경에서도 실행되고, NVIDIA GPU, AMD GPU, Apple Silicon GPU를 자동으로 감지하여 최적화된 성능을 제공합니다. 또한 OpenAI 호환 API를 내장하고 있어 기존 GPT-4 코드를 수정 없이 로컬 모델에 연결할 수 있습니다.

100+
지원 AI 모델
1분
설치 완료
시간
무료
완전 무료
오픈소스
오프라인
인터넷 없이
AI 사용

Ollama 지원 주요 모델 목록

인기 모델

ollama pull deepseek-r1 1.5B~671B
ollama pull llama4 Scout·Mav
ollama pull gemma3 1B~27B
ollama pull phi4 14B

특화 모델

ollama pull glm4 한국어 강자
ollama pull mistral 코딩 특화
ollama pull minicpm-v 초경량 멀티모달
ollama pull yi 6B·9B·34B

Windows 설치 방법 — 완전 단계별 가이드

Windows 10/11에서 Ollama 설치는 매우 간단합니다. NVIDIA GPU가 있다면 자동으로 CUDA 가속이 활성화되고, GPU가 없어도 CPU로 실행할 수 있습니다.

Windows 설치 단계

1

Ollama 다운로드

ollama.com/download/windows에서 OllamaSetup.exe 다운로드

2

설치 프로그램 실행

OllamaSetup.exe 더블클릭 → "Install" 클릭 → 자동 설치 완료

3

PowerShell 또는 명령 프롬프트 열기

ollama --version # 버전 확인
4

원하는 AI 모델 설치 및 실행

# 가벼운 모델부터 시작 (권장) ollama run gemma3:4b # 4B · RAM 4GB 필요 ollama run deepseek-r1:7b # 7B · RAM 8GB 필요 ollama run llama4:scout # Scout · RAM 8GB 필요

Windows 환경 변수 설정 (선택)

# 모델 저장 위치 변경 (기본: C:\Users\{사용자}\.ollama) [Environment]::SetEnvironmentVariable("OLLAMA_MODELS", "D:\AI\models", "User") # 외부 접속 허용 (다른 기기에서 접속) [Environment]::SetEnvironmentVariable("OLLAMA_HOST", "0.0.0.0", "User") # GPU 레이어 수 조정 (VRAM 부족 시) [Environment]::SetEnvironmentVariable("OLLAMA_NUM_GPU", "20", "User")

macOS 설치 방법 — Apple Silicon 완전 지원

macOS에서 Ollama는 Apple Silicon(M1~M4)의 Metal GPU 가속을 완벽히 지원합니다. MacBook Air(8GB RAM)에서도 소형 모델을 빠르게 실행할 수 있습니다.

# macOS 설치 방법 (3가지)

# 방법 1: 공식 다운로드 (권장) # ollama.com/download/mac 에서 Ollama.zip 다운로드 # 압축 해제 후 응용 프로그램 폴더로 이동 # 방법 2: Homebrew brew install ollama brew services start ollama # 방법 3: 원라인 스크립트 curl -fsSL https://ollama.com/install.sh | sh # 설치 확인 ollama --version # 첫 번째 모델 실행 ollama run gemma3:4b # "안녕하세요! 무엇을 도와드릴까요?" 입력으로 대화 시작

Mac RAM별 추천 모델

8GB RAMgemma3:4b, phi4:mini
16GB RAMllama4:scout, glm4
32GB RAMdeepseek-r1:32b
64GB+ RAMllama4:maverick, yi:34b

macOS 성능 최적화

  • • Metal GPU 자동 감지 및 가속
  • • 배터리 절약: CPU 모드 강제 설정
  • • 에너지 절약 모드 해제 시 30% 성능↑
  • • 충전 중 사용 시 최고 성능

Linux 설치 방법 — NVIDIA/AMD GPU 완전 지원

Linux는 Ollama를 가장 강력하게 활용할 수 있는 플랫폼입니다. NVIDIA CUDA와 AMD ROCm을 자동으로 감지하며, 서버 환경에서 여러 사용자가 동시에 접속하는 AI 서비스를 구축할 수 있습니다.

# Linux 완전 설치 및 설정 가이드

# 1. Ollama 원라인 설치 (Ubuntu/Debian/CentOS 모두 지원) curl -fsSL https://ollama.com/install.sh | sh # 2. 서비스 상태 확인 sudo systemctl status ollama # 3. 모델 설치 및 실행 ollama pull deepseek-r1:7b ollama run deepseek-r1:7b # 4. 외부 접속 허용 (서버 운영 시) sudo systemctl edit ollama # 아래 내용 추가: # [Service] # Environment="OLLAMA_HOST=0.0.0.0" sudo systemctl restart ollama # 5. Open WebUI 설치 (웹 UI) docker run -d \ -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui \ --restart always \ ghcr.io/open-webui/open-webui:main # http://localhost:3000 접속 → ChatGPT 스타일 UI

Linux 서버 활용 시나리오

팀 AI 서버 구성

  • • 회사 내부 네트워크 AI 서버
  • • 외부 연결 없는 보안 AI 환경
  • • 여러 팀원 동시 사용 가능

개발 환경 구성

  • • VS Code + Continue 플러그인 연동
  • • CI/CD 파이프라인 AI 통합
  • • API 서버로 앱 개발에 활용

Ollama API 완전 활용 가이드

Ollama는 OpenAI 호환 REST API를 내장하고 있어 Python, JavaScript, Go, Rust 등 어떤 언어로도 연동할 수 있습니다. 기존 GPT-4 코드에서 base_url만 바꾸면 바로 사용 가능합니다.

# Ollama Python API 다양한 활용 예제

# 방법 1: 공식 ollama Python 라이브러리 pip install ollama import ollama # 기본 대화 response = ollama.chat( model='deepseek-r1:7b', messages=[{'role': 'user', 'content': '한국어로 간단한 시를 써주세요.'}] ) print(response['message']['content']) # 스트리밍 (실시간 출력) for chunk in ollama.chat( model='llama4:scout', messages=[{'role': 'user', 'content': '파이썬 소트 알고리즘 설명해줘'}], stream=True ): print(chunk['message']['content'], end='', flush=True) # 방법 2: OpenAI 호환 API (기존 코드 재사용) from openai import OpenAI client = OpenAI( base_url="http://localhost:11434/v1", api_key="ollama" # 로컬이므로 임의값 사용 ) # 기존 GPT-4 코드 그대로 사용 가능! response = client.chat.completions.create( model="gemma3:9b", messages=[ {"role": "system", "content": "한국어 전문 AI 어시스턴트입니다."}, {"role": "user", "content": "2026년 AI 트렌드를 분석해주세요."} ] ) print(response.choices[0].message.content)

Open WebUI — ChatGPT 스타일 웹 인터페이스

Ollama와 함께 Open WebUI를 설치하면 ChatGPT와 똑같은 웹 인터페이스로 로컬 AI를 사용할 수 있습니다. 대화 기록 저장, 다중 모델 전환, 파일 업로드 등의 기능을 제공합니다.

Open WebUI 주요 기능

  • • 다중 모델 동시 비교 대화
  • • 대화 기록 영구 저장
  • • PDF·문서 파일 업로드 분석
  • • 시스템 프롬프트 템플릿
  • • 다국어 UI (한국어 포함)

Ollama 생태계 도구

  • Continue: VS Code AI 코딩 플러그인
  • Msty: macOS 네이티브 UI
  • Enchanted: iOS/macOS 앱
  • Anything LLM: RAG 문서 검색

Ollama 자주 묻는 질문 및 문제 해결

Q: 모델 다운로드가 느리거나 중단됩니다

Hugging Face 서버에 접속하는 속도가 느린 경우입니다. VPN07의 1000Mbps 연결을 사용하면 안정적인 속도로 모델을 다운로드할 수 있습니다. 다운로드가 중단되어도 ollama pull을 다시 실행하면 이어받기가 됩니다.

Q: VRAM 부족 오류가 발생합니다

더 작은 모델(예: 7B→3B)을 선택하거나, 양자화 레벨을 낮춰보세요. OLLAMA_NUM_GPU=0으로 CPU 모드로 전환할 수도 있습니다.

Q: Windows에서 Ollama가 실행되지 않습니다

작업 관리자에서 ollama 프로세스를 종료 후 재시작하거나, ollama serve를 명령 프롬프트에서 직접 실행해보세요.

Q: 한국어 응답이 깨지거나 부정확합니다

한국어에 최적화된 모델을 선택하세요. glm4, qwen3.5, deepseek-r1이 한국어 처리에 뛰어납니다.

Ollama 활용 팁: 네트워크 속도가 핵심

Ollama는 처음 모델을 다운로드할 때만 네트워크가 필요하며, 이후에는 완전 오프라인으로 작동합니다. 하지만 DeepSeek-R1 671B(400GB+), Llama 4 Maverick(67B, ~40GB) 등 대형 모델을 다운로드할 때는 안정적인 고속 연결이 필수입니다. VPN07의 1000Mbps 연결로 다운로드 시간을 최대 10배 단축하세요.

Ollama vs LM Studio vs vLLM — 어떤 도구를 선택할까?

로컬 AI 실행 도구는 Ollama 외에도 여러 가지가 있습니다. 각 도구의 장단점을 비교하여 본인의 사용 목적에 맞는 도구를 선택하세요.

🥇

Ollama - 사용 편의성 1위

1분 설치 · 한 줄 명령어 · 100+ 모델 지원 · OpenAI 호환 API · 완전 무료

LM Studio

GUI 전용

직관적인 그래픽 인터페이스 제공. 명령어가 어색한 초보자에게 적합. 커맨드라인 자동화는 Ollama가 우수.

vLLM

서버 전용

고성능 GPU 서버에서 최대 처리량을 원한다면 vLLM이 최적. 개인 PC보다는 데이터센터 환경에 적합.

오픈소스 LLM 다운로드 센터

Ollama로 실행 가능한 DeepSeek-R1·Llama 4·Gemma 3 등 10개 모델을 한곳에서 비교 확인

모델 보기 →

VPN07 - Ollama 모델 고속 다운로드 VPN

Hugging Face · Ollama 모델 라이브러리 고속 접속 · 1000Mbps 기가급 대역폭

$1.5/월
초저가 월정액
1000Mbps
기가급 속도
70+개국
글로벌 서버
30일
환불 보장

Ollama로 대형 AI 모델을 다운로드할 때 네트워크 속도가 체감 가장 큰 변수입니다. DeepSeek-R1 7B(4GB)는 VPN07로 약 30초, Llama 4 Scout(~10GB)는 약 1분 30초면 완료됩니다. 10년 이상 운영된 신뢰할 수 있는 VPN07은 70+개국 서버로 Ollama 모델 서버에 가장 빠르게 접속합니다. 월 $1.5, 30일 환불 보장으로 부담 없이 시작하세요.

관련 글 추천

월 $1.5 · 10년 운영
VPN07 무료 체험