Ollama 에서 가장 많이 사용되는 명령어는 무엇인가요?

Ollama 에서 가장 많이 사용되는 명령어는 ollama list, ollama pull, ollama rm, 그리고 ollama run 입니다.

다른 LLM 호스팅 옵션과 Ollama 를 비교할 수 있는 곳은 어디인가요?

우리 LLM 호스팅 개요에서는 Ollama, vLLM, Docker Model Runner, LocalAI 및 클라우드 제공업체를 비교하며 비용과 인프라에 따른 트레이드오프를 포함합니다.

로컬 및 클라우드 LLM 옵션 중에서 Ollama 가 어디에 위치하는지 어떻게 확인할 수 있습니까?

LLM 호스팅 가이드는 Ollama 및 vLLM과 같은 로컬 도구를 클라우드 제공업체와 비교하고 각각을 선택해야 하는 시기를 설명합니다.

Ollama 모델을 사용한 후 GPU 메모리를 어떻게 해제하나요?

실행 중인 모델을 중지하려면 ollama stop 명령에 모델 이름을 함께 입력하거나, keep_alive 를 0 으로 설정하여 Ollama API 에 요청을 보내 VRAM 에서 모델을 즉시 언로드하세요.

Linux 에 Ollama 를 설치하는 방법은 무엇인가요?

설치 프로그램 다운로드를 위해 ollama.com 을 방문하거나, 터미널에서 curl https://ollama.ai/install.sh | sh 을 실행하여 프롬프트에 따라 진행하세요.

Ollama 실행을 위한 시스템 요구 사항은 무엇인가요?

macOS 또는 Linux 운영 체제가 필요하며, 최소 8GB의 RAM(16GB 권장), 모델용 약 10GB의 여유 저장 공간, 그리고 최근 몇 년 내에 출시된 비교적 최신 CPU가 필요합니다.

현재 로드되거나 실행 중인 Ollama 모델을 확인하는 방법은 무엇인가요?

ollama ps 명령어를 실행하여 현재 로드된 모델 목록, 크기, GPU 또는 CPU 사용 여부, 메모리에 머무는 시간을 확인하세요.

대화형 세션을 열지 않고 단일 프롬프트로 Ollama 모델을 실행하는 방법은 무엇인가요?

프롬프트를 ollama run 으로 파이프하세요. 예를 들어 printf "여기에 질문을 입력하세요\n" | ollama run modelname 명령을 실행하면 모델이 한 번 실행된 후 종료됩니다.

Ollama 에서 병렬 요청을 늘리거나 제한하는 방법은 무엇인가요?

서버를 시작하기 전에 OLLAMA_NUM_PARALLEL 환경 변수를 설정하여 Ollama 가 동시에 처리할 요청 수를 제어하세요 (예: OLLAMA_NUM_PARALLEL=2 ollama serve).

Ollama 모델을 커스터마이징하거나 시스템 프롬프트를 설정하는 방법은 무엇인가요?

인터랙티브 REPL 에서 /set system 을 사용하여 시스템을 설정한 후 /save 를 실행하여 새로운 모델을 생성하거나, FROM 과 SYSTEM 줄을 포함한 Modelfile 을 만들어 ollama create 명령을 실행하여 커스텀 모델을 구축할 수 있습니다.

Ollama CLI 요약: ls, serve, run, ps 및 명령어 (2026 업데이트)

업데이트된 Ollama 명령어 목록 - ls, ps, run, serve 등

Page content

이 Ollama CLI 치트시트 는 매일 사용하는 명령어 (ollama ls, ollama serve, ollama run, ollama ps, 모델 관리 및 일반적인 워크플로우) 에 초점을 맞추며, 복사/붙여넣기 할 수 있는 예제를 제공합니다.

또한 OLLAMA_NUM_PARALLEL 및 관련 설정을 발견하고 심층적으로 탐구하는 데 도움이 되는 짧은 “성능 조절 장치 (performance knobs)” 섹션도 포함되어 있습니다.

ollama cheatsheet

이 Ollama 치트시트는 CLI 명령어, 모델 관리 및 커스터마이징에 중점을 두고 있으며, 동시에 일부 curl 호출 예제도 포함되어 있습니다.

vLLM, Docker Model Runner, LocalAI 및 클라우드 공급자를 포함한 로컬, 자체 호스팅 및 클라우드 옵션에서 Ollama 의 위치를 파악하려면 LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교 를 참조하세요. 다른 로컬 LLM 호스팅 솔루션을 비교 중이라면 Ollama, vLLM, LocalAI, Jan, LM Studio 등에 대한 종합 비교 를 확인해 보세요. 명령줄 인터페이스 대신 대안을 찾는 분들을 위해, Docker Model Runner 이 LLM 배포를 위한 다른 접근 방식을 제공합니다.

Ollama 설치 (다운로드 및 CLI 설치)

옵션 1: 웹사이트에서 다운로드
- ollama.com 을 방문하여 운영 체제 (Mac, Linux 또는 Windows) 에 맞는 설치 파일을 다운로드하세요.
옵션 2: 명령줄을 통해 설치
- Mac 및 Linux 사용자는 다음 명령을 사용하세요:

curl -fsSL https://ollama.com/install.sh | sh

화면의 지시를 따르고 요청 시 비밀번호를 입력하세요.

Ollama 시스템 요구 사항 (RAM, 저장소, CPU)

운영 체제: Mac, Linux 또는 Windows
메모리 (RAM): 최소 8GB, 16GB 이상 권장
저장소: 약 10GB 이상의 여유 공간 필요 (모델 파일은 매우 클 수 있으니, Ollama 모델을 다른 드라이브로 이동 참조)
프로세서: 비교적 최신 CPU (지난 5 년 내). Ollama 가 다양한 CPU 아키텍처를 어떻게 활용하는지 궁금하다면, Ollama 가 Intel CPU 성능 및 효율 코어를 사용하는 방식 분석을 확인하세요.

심각한 AI 워크로드를 위해서는 하드웨어 옵션을 비교해 보는 것이 좋습니다. 우리는 NVIDIA DGX Spark vs Mac Studio vs RTX-4080 의 Ollama 성능 을 벤치마크했으며, 고급 하드웨어 투자를 고려 중이라면 DGX Spark 가격 및 기능 비교 에서 상세한 비용 분석을 제공합니다.

기본 Ollama CLI 명령어

명령어	설명
`ollama serve`	Ollama 서버를 시작합니다 (기본 포트 11434).
`ollama run <model>`	지정된 모델을 대화형 REPL 에서 실행합니다.
`ollama pull <model>`	지정된 모델을 시스템으로 다운로드합니다.
`ollama push <model>`	모델을 Ollama 레지스트리에 업로드합니다.
`ollama list`	다운로드된 모든 모델을 나열합니다. `ollama ls`와 동일합니다.
`ollama ps`	현재 실행 중인 (로드된) 모델을 보여줍니다.
`ollama stop <model>`	실행 중인 모델을 중지합니다 (언로드).
`ollama rm <model>`	시스템에서 모델을 제거합니다.
`ollama cp <source> <dest>`	로컬에서 새로운 이름으로 모델을 복사합니다.
`ollama show <model>`	모델에 대한 세부 정보를 표시합니다 (아키텍처, 매개변수, 템플릿 등).
`ollama create <model>`	Modelfile 에서 새 모델을 생성합니다.
`ollama launch [integration]`	AI 코딩 어시스턴트 (Claude Code, Codex, Droid, OpenCode) 를 제로 구성으로 시작합니다.
`ollama signin`	Ollama 레지스트리에 인증합니다 (개인 모델 및 클라우드 모델 사용 가능).
`ollama signout`	Ollama 레지스트리에서 로그아웃합니다.
`ollama help`	명령어에 대한 도움말을 제공합니다.

바로가기 링크: Ollama serve 명령어 · Ollama launch 명령어 · Ollama run 명령어 · Ollama run 플래그 · Ollama ps 명령어 · Ollama show 명령어 · Ollama signin · Ollama CLI 기본 · 성능 조절 장치 (OLLAMA_NUM_PARALLEL) · 병렬 요청 심층 분석

Ollama CLI (정의)

Ollama CLI 는 모델을 관리하고 로컬에서 실행/제공하기 위한 명령줄 인터페이스입니다. 대부분의 워크플로우는 다음으로 요약됩니다:

서버 시작: ollama serve
모델 실행: ollama run <model>
로드/실행 중인 항목 확인: ollama ps
모델 관리: ollama pull, ollama list, ollama rm

Ollama 모델 관리: pull 및 list 모델 명령어

모델 목록:

ollama list

다음과 동일합니다:

ollama ls

이 명령어는 시스템에 다운로드된 모든 모델을 HDD/SSD 상의 파일 크기와 함께 나열합니다. 예시:

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago

모델 다운로드: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

이 명령어는 지정된 모델 (예: Gemma 2B 또는 mistral-nemo:12b-instruct-2407-q6_K) 을 시스템으로 다운로드합니다. 모델 파일은 매우 크므로 하드 드라이브 또는 SSD 에서 모델이 차지하는 공간을 주의 깊게 확인하세요. 모든 Ollama 모델을 홈 디렉터리에서 더 크고 더 나은 드라이브로 이동 하는 것을 고려할 수도 있습니다.

모델 업로드: ollama push

ollama push my-custom-model

로컬 모델을 Ollama 레지스트리에 업로드하여 다른 사용자가 이를 가져올 수 있습니다. 먼저 로그인 (ollama signin) 해야 하며, 모델 이름 앞에 Ollama 사용자 이름을 접두사로 붙여야 합니다 (예: myuser/my-model). HTTP 를 통해 개인 레지스트리에 푸시할 경우 --insecure 를 사용하세요:

ollama push myuser/my-model --insecure

모델 복사: ollama cp

ollama cp llama3.2 my-llama3-variant

새 이름으로 모델을 로컬에 복사하며, 다시 다운로드하지 않습니다. 이 기능은 Modelfile 을 수정하기 전에 유용합니다. 먼저 복사한 후 복사본을 커스터마이징하고 원본은 그대로 유지하세요:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Ollama show 명령어

ollama show 는 다운로드된 모델에 대한 정보를 출력합니다.

ollama show qwen3:14b

기본적으로 모델 카드 (아키텍처, 컨텍스트 길이, 임베딩 길이, 양자화 등) 를 출력합니다. 다음 세 가지 유용한 플래그가 있습니다:

플래그	표시 내용
`--modelfile`	모델을 생성하는 데 사용된 전체 Modelfile (FROM, SYSTEM, TEMPLATE, PARAMETER 줄)
`--parameters`	매개변수 블록만 (예: `num_ctx`, `temperature`, `stop` 토큰)
`--verbose`	텐서 모양 및 레이어 수를 포함한 확장 메타데이터

# 모델이 어떤 시스템 프롬프트와 템플릿으로 구축되었는지 정확히 확인
ollama show deepseek-r1:8b --modelfile

# 컨텍스트 창 크기 및 다른 추론 매개변수 확인
ollama show qwen3:14b --parameters

# 전체 텐서 수준 세부 정보 (양자화 디버깅에 유용)
ollama show llama3.2 --verbose

--modelfile 출력은 모델을 커스터마이징하기 전에 특히 유용합니다: 기본 Modelfile 을 복사하고 거기서부터 편집하여 처음부터 작성하는 것을 피할 수 있습니다.

Ollama serve 명령어

ollama serve 는 로컬 Ollama 서버를 시작합니다 (기본 HTTP 포트 11434).

ollama serve

“ollama serve” 명령어 (systemd 친화적 예제):

# 환경 변수 설정 후 서버 시작
# 호스트의 IP 주소에서 ollama 사용 가능하도록 설정
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run 명령어

모델 실행:

ollama run gpt-oss:20b

이 명령어는 지정된 모델을 시작하고 상호 작용을 위한 대화형 REPL 을 엽니다. Ollama 가 여러 동시 요청을 어떻게 관리하는지 이해하고 싶으신가요? 상세한 분석인 Ollama 가 병렬 요청을 처리하는 방식 에서 더 알아보세요.

ollama run 는 대화형 세션에서 모델을 실행하므로, gpt-oss:120b 의 경우 다음과 같은 것을 볼 수 있습니다:

$ ollama run gpt-oss:120b
>>> 메시지를 보내세요 (/? 도움말)

여기에 질문이나 명령어를 입력하면 모델이 답변합니다.

>>> 당신은 누구인가요?
Thinking...
사용자가 "당신은 누구인가요?"라고 묻습니다. 간단한 질문입니다. OpenAI 에서 훈련된 AI 언어 모델인 ChatGPT 로 응답해야 합니다.
etc. 간단한 소개를 제공하세요. 도움이 필요한지 물어보는 것이 좋습니다.
...done thinking.

저는 OpenAI 에서 만든 AI 언어 모델인 ChatGPT 입니다. 다양한 텍스트로 훈련되어 질문 답변, 아이디어 브레인스토밍, 개념 설명, 글 초안 작성, 문제 해결 등 다양한 도움을 드릴 수 있습니다.
다재다능한 가상 비서로 생각하셔도 됩니다. 필요한 때에 정보, 지원, 대화를 제공하기 위해 여기 있습니다. 오늘 어떻게 도와드릴까요?

>>> 메시지를 보내세요 (/? 도움말)

대화형 ollama 세션을 종료하려면 Ctrl+D 를 누르거나 /bye 를 입력하면 동일한 결과를 얻을 수 있습니다:

>>> /bye
$

Ollama run 명령어 예제

비대화형 모드에서 모델을 실행하고 단일 질문을 하려면:

printf "로그 분석을 위한 10 가지 bash 원라인 명령어를 알려주세요.\n" | ollama run llama3.2

ollama 세션에서 자세한 verbose LLM 답변을 보려면 --verbose 또는 -v 매개변수로 모델을 실행하세요:

$ ollama run gpt-oss:20b --verbose
>>> 당신은 누구인가요?
Thinking...
간단한 질문 "당신은 누구인가요?"에 응답해야 합니다. 사용자는 "당신은 누구인가요?"라고 묻고 있습니다. 우리는 OpenAI 에서 훈련된 대규모 언어 모델인 ChatGPT 라고 답할 수 있습니다. 기능도 언급할 수 있습니다. 사용자는 간략한 소개를 기대할 것입니다. 친근하게 유지하겠습니다.
...done thinking.

저는 OpenAI 에서 만든 대규모 언어 모델인 ChatGPT 입니다. 질문 답변, 설명 제공, 아이디어 브레인스토밍, 다양한 주제에 대한 대화 (과학, 역사부터 창작 글쓰기 및 일상적인 조언까지) 를 도와드립니다.
어떤 이야기를 하고 싶으신가요?

total duration:       1.118585707s
load duration:        106.690543ms
prompt eval count:    71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate:     2327.30 tokens/s
eval count:           132 token(s)
eval duration:        945.801569ms
eval rate:            139.56 tokens/s
>>> /bye
$

네, 맞습니다. 초당 139 토큰입니다. gpt-oss:20b 는 매우 빠릅니다. 저처럼 16GB VRAM 을 가진 GPU 를 가지고 있다면, 16GB VRAM GPU 를 위한 최적의 LLM 에서 LLM 속도 비교 세부 사항을 확인하세요.

팁: 여러 앱에서 HTTP 를 통해 모델을 사용 가능하게 하려면, 긴 대화형 세션 대신 ollama serve 로 서버를 시작하고 API 클라이언트를 사용하세요.

Ollama run 플래그 (전체 참조)

플래그	설명
`--verbose` / `-v`	각 응답 후 타이밍 통계 (tokens/s, 로드 시간 등) 출력
`-p, --parameters`	Modelfile 없이 인라인으로 모델 매개변수 전달 (아래 참조)
`--format string`	특정 출력 형식 강제 (예: `json`)
`--nowordwrap`	자동 단어 줄바꿈 비활성화 — 출력 파이프링 시 유용
`--insecure`	HTTP 를 통한 레지스트리 연결 허용 (개인/자체 호스팅 레지스트리용)

Modelfile 없이 모델 매개변수 오버라이드 (-p / –parameters)

-p 플래그는 Modelfile 을 생성하지 않고 실행 시 추론 매개변수를 변경할 수 있게 합니다. 여러 -p 플래그를 쌓을 수 있습니다:

# 컨텍스트 창 늘리기 및 온도 낮추기
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# 결정론적 출력으로 코딩 작업 실행
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

이렇게 설정할 수 있는 일반적인 매개변수:

매개변수	효과
`num_ctx`	토큰 단위의 컨텍스트 창 크기 (기본값은 모델에 따라 다름, 보통 2048–4096)
`temperature`	무작위성: 0 = 결정론적, 1 = 창의적
`top_p`	핵 샘플링 임계값
`top_k`	상위 K 토큰으로 어휘 제한
`num_predict`	생성할 최대 토큰 수 (-1 = 무제한)
`repeat_penalty`	토큰 반복 페널티

REPL 에서 여러 줄 입력

텍스트를 세중따옴표 (""") 로 묶어 조기 제출 없이 여러 줄 프롬프트를 입력하세요:

>>> """이것을 한 문장으로 요약하세요:
... 빠른 갈색 여우가 게으른 개를 뛰어넘습니다.
... 화요일에 일어난 일입니다.
... """

멀티모달 모델 (이미지)

시각 기능을 갖춘 모델 (예: gemma3, llava) 의 경우 프롬프트에 이미지 경로를 직접 전달하세요:

ollama run gemma3 "이 이미지에 무엇이 있나요? /home/user/screenshot.png"

CLI 를 통한 임베딩 생성

임베딩 모델은 텍스트 대신 JSON 배열을 출력합니다. 빠른 일회성 임베딩을 위해 텍스트를 직접 파이프하세요:

echo "Hello world" | ollama run nomic-embed-text

프로덕션 임베딩 워크로드에는 /api/embeddings REST 엔드포인트 또는 Python 클라이언트를 대신 사용하세요.

JSON 출력 강제 (–format)

ollama run llama3.2 --format json "5 개의 수도를 JSON 으로 나열하세요"

모델은 유효한 JSON 을 반환하도록 지시받습니다. 출력을 jq 나 구조화된 데이터를 기대하는 스크립트로 파이프할 때 유용합니다.

Ollama stop 명령어

이 명령어는 지정된 실행 중인 모델을 중지합니다.

ollama stop llama3.1:8b-instruct-q8_0

Ollama 는 일정 시간이 지나면 모델을 자동으로 추방합니다. 이 시간을 지정할 수 있으며 기본값은 4 분입니다. 나머지 시간을 기다리지 않으려면 이 ollama stop 명령어를 사용할 수 있습니다. 또한 /generate API 엔드포인트에 keep_alive=0 매개변수를 호출하여 모델의 VRAM 을 비울 수 있으며, 아래 설명 및 예제를 참조하세요.

Ollama ps 명령어

ollama ps 는 현재 실행 중인 모델과 세션을 보여줍니다 (“VRAM 이 꽉 찬 이유는 무엇인가?” 디버깅에 유용).

ollama ps

ollama ps 출력 예시는 다음과 같습니다:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutes from now

여기서 제 PC 에서 gpt-oss:20b 가 GPU 의 16GB VRAM 에 잘 들어맞으며, 오직 14GB 만 차지하고 있음을 볼 수 있습니다.

만약 ollama run gpt-oss:120b를 실행한 후 ollama ps를 호출하면 결과가 그리 밝지 않을 것입니다: 78% 의 레이어가 CPU 에 있으며, 이는 컨텍스트 창이 4096 토큰일 뿐입니다. 컨텍스트를 늘려야 한다면 더 나쁠 것입니다.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutes from now

Ollama launch 명령어 (AI 코딩 통합)

ollama launch 는 Ollama v0.15 (2026 년 1 월) 에서 도입된 명령어로, 로컬 Ollama 서버에 대해 실행되는 인기 AI 코딩 어시스턴트를 위한 제로 구성, 원라인 설정을 제공합니다.

ollama launch 사용 이유

ollama launch 이전에는 Claude Code 또는 Codex 와 같은 코딩 에이전트를 로컬 Ollama 백엔드에 연결하려면 환경 변수를 수동으로 설정하고 도구를 올바른 API 엔드포인트로 지정하며 호환되는 모델을 선택해야 했습니다. ollama launch 는 이 모든 작업을 대화형으로 처리해 줍니다.

이미 로컬에서 Ollama 를 실행 중이면서 API 호출 비용을 지불하거나 코드를 클라우드로 보내지 않고 에이전트 기반 코딩 어시스턴트를 원한다면, ollama launch 가 가장 빠른 경로입니다.

지원되는 통합

통합	설명
`claude`	Anthropic 의 Claude Code — 에이전트 기반 코딩 어시스턴트
`codex`	OpenAI 의 Codex CLI 코딩 어시스턴트
`droid`	Factory 의 AI 코딩 에이전트
`opencode`	오픈소스 코딩 어시스턴트

기본 사용법

# 대화형 선택기 — 메뉴에서 통합 선택
ollama launch

# 특정 통합 직접 시작
ollama launch claude

# 특정 모델로 시작
ollama launch claude --model qwen3-coder

# 시작하지 않고 통합 구성 (설정 확인에 유용)
ollama launch droid --config

권장 모델

코딩 에이전트는 전체 파일 컨텍스트와 다중 턴 대화 기록을 보유하기 위해 긴 컨텍스트 창이 필요합니다. Ollama 는 최소 64,000 토큰의 컨텍스트를 가진 모델을 권장합니다:

모델	참고 사항
`qwen3-coder`	강력한 코딩 성능, 긴 컨텍스트, 로컬 실행
`glm-4.7-flash`	빠른 로컬 옵션
`devstral:24b`	Mistral 의 코딩 중심 모델

GPU 가 모델을 수용하지 못하면 Ollama 는 클라우드 호스팅 변형 (예: qwen3-coder:480b-cloud) 을 제공하며, 이는 동일한 방식으로 통합되지만 추론을 Ollama 의 클라우드 계층으로 라우팅합니다 — ollama signin 필요.

예시: Ollama 로 로컬 Claude Code 실행

# 1. 모델 사용 가능 확인
ollama pull qwen3-coder

# 2. Claude Code 실행
ollama launch claude --model qwen3-coder

Ollama 는 필요한 환경 변수를 설정하고 자동으로 http://localhost:11434 를 가리키도록 Claude Code 를 시작합니다. 이후 평소와 정확히 동일하게 Claude Code 를 사용할 수 있으며, 유일한 차이는 추론이 자체 하드웨어에서 일어난다는 점입니다.

성능 조절 장치 (`OLLAMA_NUM_PARALLEL`)

부하 상태에서 큐잉 또는 시간 초과를 보인다면, 먼저 배워야 할 조절 장치는 **OLLAMA_NUM_PARALLEL**입니다.

OLLAMA_NUM_PARALLEL = Ollama 가 병렬로 실행하는 요청 수.
값이 높으면 처리량이 증가할 수 있지만, VRAM 압력과 지연 시간 스파이크가 발생할 수 있습니다.

간단한 예제:

OLLAMA_NUM_PARALLEL=2 ollama serve

전체 설명 (튜닝 전략 및 실패 모드 포함) 은 다음을 참조하세요:

Ollama 가 병렬 요청을 처리하는 방식

VRAM 에서 Ollama 모델 해제 (keep_alive)

모델이 VRAM(GPU 메모리) 에 로드되면 사용이 끝난 후에도 그곳에 남아 있습니다. 모델을 VRAM 에서 명시적으로 해제하고 GPU 메모리를 확보하려면 keep_alive: 0을 사용하여 Ollama API 에 요청을 보낼 수 있습니다.

curl 을 사용하여 VRAM 에서 모델 해제:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

MODELNAME을 실제 모델 이름으로 교체하세요, 예:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Python 을 사용하여 VRAM 에서 모델 해제:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

이는 다음 상황에서 특히 유용합니다:

다른 애플리케이션을 위해 GPU 메모리를 확보해야 할 때
여러 모델을 실행 중이며 VRAM 사용을 관리하고 싶을 때
대형 모델을 사용했으므로 리소스를 즉시 해제하고 싶을 때

참고: keep_alive 매개변수는 마지막 요청 후 모델이 메모리에 로드된 상태를 유지하는 시간 (초) 을 제어합니다. 이를 0으로 설정하면 모델이 즉시 VRAM 에서 언로드됩니다.

Ollama 의 추상화 계층을 완전히 피하고 어떤 GGUF 모델이 어떤 순간에 상주하는지에 대한 직접적인 제어를 원한다면, llama-server 라우터 모드 에서 llama.cpp 네이티브 방식의 동적 모델 전환을 다룹니다.

Ollama 모델 커스터마이징 (시스템 프롬프트, Modelfile)

시스템 프롬프트 설정: Ollama REPL 내부에서 모델의 행동을 커스터마이징하기 위한 시스템 프롬프트를 설정할 수 있습니다:
```
>>> /set system 모든 질문에 대해 기술 용어를 최대한 피하고 평이한 영어로 답변하세요
>>> /save ipe
>>> /bye
```
그 후 커스터마이징된 모델을 실행:
```
ollama run ipe
```
이는 시스템 프롬프트를 설정하고 모델을 향후 사용을 위해 저장합니다.
커스텀 모델 파일 생성: 다음 구조를 가진 텍스트 파일 (예: custom_model.txt) 을 생성하세요:
```
FROM llama3.1
SYSTEM [여기에 커스텀 지시사항 입력]
```
그 후 실행:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
이는 파일의 지시사항을 기반으로 커스터마이징된 모델을 생성합니다.

ollama signin
ollama signout

ollama signin은 로컬 Ollama 설치를 ollama.com 의 Ollama 레지스트리에 인증합니다. 로그인하면 클라이언트가 자격 증명을 로컬에 저장하고 이후 명령에서 자동으로 재사용합니다.

signin 으로 잠금 해제 기능:

계정 또는 조직에서 개인 모델을 풀링 및 푸싱.
로컬 실행이 불가능할 정도로 큰 클라우드 호스팅 모델 (예: qwen3-coder:480b-cloud) 사용.
ollama push로 레지스트리에 모델 게시.

대안: API 키 인증

CI 파이프라인 또는 대화형 ollama signin이 실용적이지 않은 헤드리스 서버에서 Ollama 를 실행 중인 경우, Ollama 계정 설정에서 API 키를 생성하고 환경 변수로 노출하세요:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

OLLAMA_API_KEY 변수는 모든 Ollama 명령 및 API 요청에서 자동으로 받아들여지므로 각 기계에서 ollama signin을 실행할 필요가 없습니다.

파일과 함께 Ollama run 명령어 사용 (요약, 리디렉션)

파일에서 텍스트 요약:
```
ollama run llama3.2 "이 파일의 내용을 50 단어로 요약하세요." < input.txt
```
이 명령어는 지정된 모델을 사용하여 input.txt의 내용을 요약합니다.
모델 응답을 파일에 기록:
```
ollama run llama3.2 "신재생 에너지에 대해 알려주세요." > output.txt
```
이 명령어는 모델의 응답을 output.txt에 저장합니다.

Ollama CLI 사용 사례 (텍스트 생성, 분석)

텍스트 생성:

대형 텍스트 파일 요약:

ollama run llama3.2 "다음 텍스트를 요약하세요:" < long-document.txt

콘텐츠 생성:

ollama run llama3.2 "의료에서 AI 사용의 이점에 대한 짧은 기사를 작성하세요." > article.txt

특정 질문 답변:

ollama run llama3.2 "AI 의 최신 경향은 무엇이며, 이는 의료에 어떤 영향을 미칠까요?"

데이터 처리 및 분석:
- 텍스트를 긍정, 부정 또는 중립 감정으로 분류:
```
ollama run llama3.2 "이 고객 리뷰의 감정을 분석하세요: '제품은 훌륭하지만 배송이 느렸습니다.'"
```
- 텍스트를 사전 정의된 범주로 분류: 사전 정의된 기준에 따라 텍스트를 분류하거나 범주화하는 데 유사한 명령을 사용하세요.

Python 과 함께 Ollama 사용 (클라이언트 및 API)

Ollama Python 라이브러리 설치:
```
pip install ollama
```

Python 을 사용하여 텍스트 생성:

import ollama

response = ollama.generate(model='gemma:2b', prompt='양자 비트 (qubit) 란 무엇인가요?')
print(response['response'])

이 코드 스니펫은 지정된 모델과 프롬프트를 사용하여 텍스트를 생성합니다.

고급 Python 통합을 위해 Python 에서 Ollama 웹 검색 API 사용 을 살펴보세요. 이는 웹 검색 기능, 툴 호출 및 MCP 서버 통합을 다룹니다. AI 기반 애플리케이션을 개발 중이라면, AI 코딩 어시스턴트 비교 를 통해 개발에 적합한 도구를 선택하는 데 도움이 됩니다.

웹 기반 인터페이스를 원하신다면? Open WebUI 는 RAG 기능과 다중 사용자 지원을 제공하는 자체 호스팅 인터페이스를 제공합니다. 고성능 프로덕션 배포를 고려한다면 vLLM 을 대안으로 고려해 보세요. Ollama 와 다른 로컬 및 클라우드 LLM 인프라 선택을 비교하려면 LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교 를 참조하세요.

Ollama CLI 요약: ls, serve, run, ps 및 명령어 (2026 업데이트)

Ollama 설치 (다운로드 및 CLI 설치)

Ollama 시스템 요구 사항 (RAM, 저장소, CPU)

기본 Ollama CLI 명령어

Ollama CLI (정의)

Ollama 모델 관리: pull 및 list 모델 명령어

Ollama show 명령어

Ollama serve 명령어

Ollama run 명령어

Ollama run 명령어 예제

Ollama run 플래그 (전체 참조)

Modelfile 없이 모델 매개변수 오버라이드 (-p / –parameters)

REPL 에서 여러 줄 입력

멀티모달 모델 (이미지)

CLI 를 통한 임베딩 생성

JSON 출력 강제 (–format)

Ollama stop 명령어

Ollama ps 명령어

Ollama launch 명령어 (AI 코딩 통합)

ollama launch 사용 이유

지원되는 통합

기본 사용법

권장 모델

예시: Ollama 로 로컬 Claude Code 실행

성능 조절 장치 (`OLLAMA_NUM_PARALLEL`)

VRAM 에서 Ollama 모델 해제 (keep_alive)

Ollama 모델 커스터마이징 (시스템 프롬프트, Modelfile)

파일과 함께 Ollama run 명령어 사용 (요약, 리디렉션)

Ollama CLI 사용 사례 (텍스트 생성, 분석)

Python 과 함께 Ollama 사용 (클라이언트 및 API)

유용한 링크

구성 및 관리

대안 및 비교

성능 및 하드웨어

통합 및 개발

Ollama 설치 (다운로드 및 CLI 설치)

Ollama 시스템 요구 사항 (RAM, 저장소, CPU)

기본 Ollama CLI 명령어

Ollama CLI (정의)

Ollama 모델 관리: pull 및 list 모델 명령어

Ollama show 명령어

Ollama serve 명령어

Ollama run 명령어

Ollama run 명령어 예제

Ollama run 플래그 (전체 참조)

Modelfile 없이 모델 매개변수 오버라이드 (-p / –parameters)

REPL 에서 여러 줄 입력

멀티모달 모델 (이미지)

CLI 를 통한 임베딩 생성

JSON 출력 강제 (–format)

Ollama stop 명령어

Ollama ps 명령어

Ollama launch 명령어 (AI 코딩 통합)

ollama launch 사용 이유

지원되는 통합

기본 사용법

권장 모델

예시: Ollama 로 로컬 Claude Code 실행

성능 조절 장치 (OLLAMA_NUM_PARALLEL)

VRAM 에서 Ollama 모델 해제 (keep_alive)

Ollama 모델 커스터마이징 (시스템 프롬프트, Modelfile)

Ollama signin 및 signout (레지스트리 인증)

파일과 함께 Ollama run 명령어 사용 (요약, 리디렉션)

Ollama CLI 사용 사례 (텍스트 생성, 분석)

Python 과 함께 Ollama 사용 (클라이언트 및 API)

유용한 링크

구성 및 관리

대안 및 비교

성능 및 하드웨어

통합 및 개발

구독하기

성능 조절 장치 (`OLLAMA_NUM_PARALLEL`)