Ollama CLI 단축키: ls, serve, run, ps + 명령어 (2026 업데이트)

업데이트된 Ollama 명령어 목록 - ls, ps, run, serve 등

Page content

Ollama CLI 명령어 요약은 매일 사용하는 명령어(ollama ls, ollama serve, ollama run, ollama ps, 모델 관리 및 일반적인 워크플로우)와 함께 복사/붙여넣을 수 있는 예제를 포함합니다.

또한 OLLAMA_NUM_PARALLEL 및 관련 설정을 발견하고 심층적으로 분석하는 데 도움이 되는 짧은 “성능 조정” 섹션도 포함되어 있습니다.

ollama cheatsheet

이 Ollama 명령어 요약은 CLI 명령어, 모델 관리 및 맞춤화에 초점을 맞추고 있지만, 여기에도 curl 호출도 포함되어 있습니다.

Ollama가 로컬, 자가호스팅 및 클라우드 옵션 중에서 어디에 위치하는지에 대한 전체적인 그림을 보려면 LLM 호스팅: 로컬, 자가호스팅 및 클라우드 인프라 비교를 참조하세요. 로컬 LLM 호스팅 솔루션을 비교하고자 한다면, Ollama, vLLM, LocalAI, Jan, LM Studio 및 기타에 대한 종합 비교를 확인하세요. 명령행 인터페이스 대신 대안을 찾고 있다면, Docker 모델 러너는 LLM 배포에 대한 다른 접근 방식을 제공합니다.

Ollama 설치 (다운로드 및 CLI 설치)

  • 옵션 1: 웹사이트에서 다운로드
    • ollama.com을 방문하고 운영체제(Mac, Linux 또는 Windows)에 맞는 설치 프로그램을 다운로드합니다.
  • 옵션 2: 명령행을 통해 설치
    • Mac 및 Linux 사용자는 다음 명령을 사용합니다:
curl https://ollama.ai/install.sh | sh
  • 화면에 표시된 지시사항을 따르고, 비밀번호가 요청될 경우 비밀번호를 입력합니다.

Ollama 시스템 요구 사항 (RAM, 저장소, CPU)

심각한 AI 작업 부하를 위해 하드웨어 옵션을 비교하는 것이 좋습니다. 우리는 NVIDIA DGX Spark vs Mac Studio vs RTX-4080 성능 비교를 벤치마크했으며, 고성능 하드웨어에 투자하는 것을 고려하고 있다면, 우리의 DGX Spark 가격 및 기능 비교는 상세한 비용 분석을 제공합니다.

기본 Ollama CLI 명령어

명령어 설명
ollama serve 로컬 시스템에서 Ollama를 시작합니다.
ollama create <new_model> 기존 모델에서 커스터마이징 또는 훈련을 위해 새로운 모델을 생성합니다.
ollama show <model> 특정 모델에 대한 세부 정보(예: 구성 및 출시일)를 표시합니다.
ollama run <model> 지정된 모델을 실행하여 상호작용이 가능하게 만듭니다.
ollama pull <model> 지정된 모델을 시스템에 다운로드합니다.
ollama list 다운로드된 모든 모델을 나열합니다. ollama ls와 동일합니다.
ollama ps 현재 실행 중인 모델을 표시합니다.
ollama stop <model> 지정된 실행 중인 모델을 중지합니다.
ollama rm <model> 지정된 모델을 시스템에서 제거합니다.
ollama help 어떤 명령에 대한 도움을 제공합니다.

이동 링크: Ollama serve 명령어 · Ollama run 명령어 · Ollama ps 명령어 · Ollama CLI 기본 사항 · 성능 조정 (OLLAMA_NUM_PARALLEL) · 병렬 요청 심층 분석

Ollama CLI (무엇인지)

Ollama CLI는 모델을 관리하고 로컬에서 실행/호스팅하는 명령행 인터페이스입니다. 대부분의 워크플로우는 다음과 같이 줄어듭니다:

  • 서버 시작: ollama serve
  • 모델 실행: ollama run <model>
  • 로드/실행 중인 항목 확인: ollama ps
  • 모델 관리: ollama pull, ollama list, ollama rm

Ollama 모델 관리: 모델을 끌어오고 나열하는 명령어

모델 나열:

ollama list

동일하게:

ollama ls

이 명령어는 시스템에 다운로드된 모든 모델을 나열하며, HDD/SSD에 저장된 파일 크기도 함께 표시합니다.

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  

모델 다운로드: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

이 명령어는 지정된 모델(Gemma 2B 또는 mistral-nemo:12b-instruct-2407-q6_K 등)을 시스템에 다운로드합니다. 모델 파일은 매우 크기 때문에, 하드디스크 또는 SSD에서 모델이 사용하는 공간을 주의 깊게 확인해야 합니다. 모든 Ollama 모델을 홈 디렉토리에서 다른 더 큰 드라이브로 이동하고 싶다면, 여기를 참조하세요 Ollama 모델을 다른 드라이브로 이동

Ollama serve 명령어

ollama serve는 로컬 Ollama 서버를 시작합니다 (기본 HTTP 포트 11434).

ollama serve

“ollama serve” 명령어 (systemd 친화적인 예시):

# 환경 변수 설정, 그 후 서버 시작
# 호스트 IP 주소에서 Ollama를 사용 가능하게 설정
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run 명령어

모델 실행:

ollama run gpt-oss:20b

이 명령어는 지정된 모델을 실행하고 상호작용을 위한 인터랙티브 REPL을 열어줍니다. Ollama가 여러 병렬 요청을 어떻게 처리하는지 이해하고 싶다면? 우리의 상세 분석에서 Ollama가 병렬 요청을 어떻게 처리하는지에 대해 더 알아보세요.

ollama run은 인터랙티브 세션에서 모델을 실행합니다, 따라서 gpt-oss:120b의 경우 다음과 같은 화면을 볼 수 있습니다

$ ollama run gpt-oss:120b
>>> 메시지 보내기 (/? 도움 보기)

질문이나 명령을 입력하면 모델이 답변합니다.

>>> who are you?
Thinking...
사용자가 "who are you?"라고 묻는 간단한 질문입니다. ChatGPT로 답변해야 합니다. OpenAI에서 훈련된 AI 언어 모델로, 간단한 소개를 제공해야 합니다. 도움이 필요한지 물어보는 것이 좋습니다.
...생각 완료.

저는 OpenAI에서 개발한 AI 언어 모델인 ChatGPT입니다. 다양한 텍스트에 훈련되어 질문에 답하고, 아이디어를 브레인스토밍하고, 개념을 설명하고, 글을 초안하고, 문제를 해결하는 데 도움을 줄 수 있습니다. 저는 다양한 주제에 대해 이야기할 수 있는 다목적 가상 보조자로, 필요할 때마다 정보, 지원, 대화를 제공할 수 있습니다. 오늘날 어떻게 도와드릴까요?

>>> 메시지 보내기 (/? 도움 보기)

인터랙티브 ollama 세션을 종료하려면 Ctrl+D를 누르거나 /bye를 입력하면 동일한 결과가 나옵니다:

>>> /bye
$ 

Ollama run 명령어 예제

모델을 실행하고 비인터랙티브 모드에서 단일 질문을 묻고자 한다면:

printf "Give me 10 bash one-liners for log analysis.\n" | ollama run llama3.2

ollama 세션에서 상세한 병렬 LLM 응답을 보고 싶다면, --verbose 또는 -v 매개변수를 사용하여 모델을 실행하세요:

$ ollama run gpt-oss:20b --verbose
>>> who are you?
Thinking...
간단한 질문 "who are you?"에 대답해야 합니다. 사용자는 "who are you?"라고 묻고 있습니다. 우리는 ChatGPT, OpenAI에서 훈련된 대규모 언어 모델이라고 대답할 수 있습니다. 또한 기능을 언급할 수 있습니다. 사용자는 간단한 소개를 기대하고 있습니다. 친절하게 대답하세요.
...생각 완료.

저는 OpenAI에서 개발한 대규모 언어 모델인 ChatGPT입니다. 저는 질문에 답하고, 설명을 제공하고, 아이디어를 브레인스토밍하고, 과학, 역사, 창작 글쓰기, 일상적인 조언 등 다양한 주제에 대해 대화할 수 있습니다. 제가 도와드릴 수 있는 것이 무엇인지 알려주세요!

total duration:       1.118585707s
load duration:        106.690543ms
prompt eval count:    71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate:     2327.30 tokens/s
eval count:           132 token(s)
eval duration:        945.801569ms
eval rate:            139.56 tokens/s
>>> /bye
$ 

네, 맞습니다. 초당 139 토큰입니다. gpt-oss:20b는 매우 빠릅니다. 저는 16GB VRAM을 가진 GPU를 가지고 있다면, Ollama에 대한 LLM 속도 비교 세부 정보를 16GB VRAM GPU에 적합한 Ollama의 최고 LLM에서 확인하세요.

팁: 여러 앱에서 모델을 HTTP로 사용하고 싶다면, ollama serve로 서버를 시작하고 장시간의 인터랙티브 세션 대신 API 클라이언트를 사용하세요.

Ollama stop 명령어

이 명령어는 지정된 실행 중인 모델을 중지합니다.

ollama stop llama3.1:8b-instruct-q8_0

Ollama는 시간이 지나면 자동으로 모델을 제거합니다. 기본값은 4분입니다. 남은 시간을 기다리지 않으려면 이 ollama stop 명령어를 사용할 수 있습니다. VRAM에서 모델을 강제로 제거하려면 /generate API 엔드포인트에 keep_alive=0 매개변수를 전달하여 호출할 수 있습니다. 아래에 설명과 예제가 있습니다.

Ollama ps 명령어

ollama ps는 현재 실행 중인 모델 및 세션을 표시합니다 (VRAM이 왜 가득 차 있는지 디버깅할 때 유용합니다).

ollama ps

ollama ps 출력 예시는 다음과 같습니다:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutes from now

여기서 제 PC에서 gpt-oss:20b는 제 GPU의 16GB VRAM에 잘 맞고, 14GB만 사용하고 있습니다.

만약 ollama run gpt-oss:120b를 실행하고 ollama ps를 실행하면 결과는 그렇게 좋지 않습니다: 78%의 레이어가 CPU에 있고, 이는 컨텍스트 창이 4096 토큰인 경우입니다. 컨텍스트를 늘리면 더 나빠질 것입니다.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutes from now

성능 조정 (OLLAMA_NUM_PARALLEL)

부하가 있을 때 대기열이나 타임아웃을 보는 경우, 먼저 배우는 조정 요소는 **OLLAMA_NUM_PARALLEL**입니다.

  • OLLAMA_NUM_PARALLEL = Ollama가 병렬로 실행하는 요청의 수입니다.
  • 더 높은 값은 처리량을 증가시킬 수 있지만, VRAM 압력과 지연 스파이크가 증가할 수 있습니다.

빠른 예시:

OLLAMA_NUM_PARALLEL=2 ollama serve

완전한 설명(포함 조정 전략 및 실패 모드)은 다음을 참조하세요:

VRAM에서 Ollama 모델 해제 (keep_alive)

모델이 VRAM(그래픽 메모리)에 로드되면 사용을 마치고도 그대로 남아 있습니다. 모델을 VRAM에서 명시적으로 해제하고 GPU 메모리를 해제하려면 Ollama API에 keep_alive: 0을 포함한 요청을 보내야 합니다.

  • VRAM에서 모델 해제 (curl 사용):
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

MODELNAME을 실제 모델 이름으로 교체하세요, 예:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • VRAM에서 모델 해제 (Python 사용):
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

이 작업은 다음 상황에서 특히 유용합니다:

  • 다른 애플리케이션을 위해 GPU 메모리를 해제해야 할 때
  • 여러 모델을 실행하고 VRAM 사용량을 관리하고 싶을 때
  • 대규모 모델을 사용하고 즉시 자원을 해제하고 싶을 때

참고: keep_alive 매개변수는 마지막 요청 후 모델이 메모리에 얼마나 오래 유지되는지(초 단위)를 제어합니다. 0으로 설정하면 모델이 즉시 VRAM에서 해제됩니다.

Ollama 모델 커스터마이징 (시스템 프롬프트, Modelfile)

  • 시스템 프롬프트 설정: Ollama REPL 내에서 시스템 프롬프트를 설정하여 모델의 행동을 커스터마이징할 수 있습니다:

    >>> /set system 모든 질문에 대해 가능한 한 기술 용어를 피하고 일반 영어로 답변하세요
    >>> /save ipe
    >>> /bye
    

    커스터마이징된 모델을 실행하려면:

    ollama run ipe
    

    이는 시스템 프롬프트를 설정하고 모델을 향후 사용을 위해 저장합니다.

  • 커스텀 모델 파일 생성: 다음 구조를 가진 텍스트 파일(예: custom_model.txt)을 생성합니다:

    FROM llama3.1
    SYSTEM [여기서 커스텀 지시사항을 입력하세요]
    

    그런 다음 실행합니다:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    이는 파일에 있는 지시사항에 따라 커스터마이징된 모델을 생성합니다.

Ollama run 명령어와 파일 사용 (요약, 리디렉션)

  • 파일의 텍스트 요약:

    ollama run llama3.2 "이 파일의 내용을 50단어로 요약하세요." < input.txt
    

    이 명령어는 지정된 모델을 사용하여 input.txt의 내용을 요약합니다.

  • 모델 응답을 파일로 저장:

    ollama run llama3.2 "재생 가능한 에너지에 대해 말해주세요." > output.txt
    

    이 명령어는 모델의 응답을 output.txt에 저장합니다.

Ollama CLI 사용 사례 (텍스트 생성, 분석)

  • 텍스트 생성:

    • 대규모 텍스트 파일 요약:
      ollama run llama3.2 "다음 텍스트를 요약해주세요:" < long-document.txt
      
    • 콘텐츠 생성:
      ollama run llama3.2 "AI를 의료에 사용하는 이점에 대해 짧은 기사를 작성해주세요." > article.txt
      
    • 특정 질문에 대한 답변:
      ollama run llama3.2 "AI의 최신 트렌드는 무엇이며, 그들이 의료에 어떤 영향을 미칠까요?"
      

    .

  • 데이터 처리 및 분석:

    • 텍스트를 긍정, 부정 또는 중립 감정으로 분류:
      ollama run llama3.2 "이 고객 리뷰의 감정을 분석해주세요: '제품은 훌륭하지만 배송이 느렸습니다.'"
      
    • 사전 정의된 범주로 텍스트 분류: 유사한 명령어를 사용하여 사전 정의된 기준에 따라 텍스트를 분류하거나 범주화할 수 있습니다.

Python과 함께 Ollama 사용 (클라이언트 및 API)

  • Ollama Python 라이브러리 설치:
    pip install ollama
    
  • Python을 사용하여 텍스트 생성:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='qubit란 무엇인가요?')
    print(response['response'])
    
    이 코드 스니펫은 지정된 모델과 프롬프트를 사용하여 텍스트를 생성합니다.

고급 Python 통합을 원한다면, Python에서 Ollama의 웹 검색 API 사용을 참조하세요. 이는 웹 검색 기능, 도구 호출, MCP 서버 통합을 다룹니다. AI 기반 애플리케이션을 개발하고 있다면, AI 코딩 어시스턴트 비교를 통해 개발에 적합한 도구를 선택하는 데 도움이 됩니다.

웹 기반 인터페이스를 원하시나요? Open WebUI는 RAG 기능과 다중 사용자 지원을 갖춘 자가호스팅 인터페이스를 제공합니다. 고성능 프로덕션 배포를 원한다면, vLLM 대안를 고려하세요. Ollama를 다른 로컬 및 클라우드 LLM 인프라 선택과 비교하려면 LLM 호스팅: 로컬, 자가호스팅 및 클라우드 인프라 비교를 참조하세요.

유용한 링크

구성 및 관리

대안 및 비교

성능 및 하드웨어

통합 및 개발