Ollama CLI クイックリファレンス: ls, serve, run, ps + コマンド(2026年更新)

更新されたOllamaコマンド一覧 - ls, ps, run, serve など

目次

このOllama CLI チェックリストは、ollama lsollama serveollama runollama ps、モデル管理、および一般的なワークフローに焦点を当てており、コピー/ペーストできる例も含まれています。

また、OLLAMA_NUM_PARALLEL および関連設定を深く掘り下げるための短い「パフォーマンス調整」セクションも含まれています。

ollama cheatsheet

このOllamaチェックリストはCLIコマンド、モデル管理、カスタマイズに焦点を当てています。 しかし、ここにもcurlのコールも含まれています。

Ollamaがローカル、セルフホスト、クラウドオプションの中でどの位置にあるのか、vLLM、Docker Model Runner、LocalAI、クラウドプロバイダーを含む比較については、LLM ホスティング: ローカル、セルフホスト、クラウドインフラの比較をご覧ください。ローカルLLMホスティングソリューションを比較している場合は、Ollama、vLLM、LocalAI、Jan、LM Studioなどに関する包括的な比較をご覧ください。コマンドラインインターフェースの代替を検討している場合は、Docker Model RunnerがLLMデプロイメントの別のアプローチを提供しています。

Ollamaのインストール(ダウンロードとCLIインストール)

  • オプション1: ウェブサイトからダウンロード
    • ollama.comにアクセスし、Mac、Linux、またはWindows用のインストーラーをダウンロードしてください。
  • オプション2: コマンドラインでインストール
    • MacおよびLinuxユーザーは次のコマンドを使用してください:
curl -fsSL https://ollama.com/install.sh | sh
  • 画面表示に従ってください。パスワードが求められたら入力してください。

Ollamaのシステム要件(RAM、ストレージ、CPU)

本格的なAIワークロードでは、ハードウェアオプションを比較することをお勧めします。我々はNVIDIA DGX Spark vs Mac Studio vs RTX-4080のOllamaパフォーマンス比較をベンチマークしており、高価なハードウェアへの投資を検討している場合は、DGX Sparkの価格と機能比較が詳細なコスト分析を提供しています。

基本的なOllama CLIコマンド

コマンド 説明
ollama serve Ollamaサーバーを開始します(デフォルトポート11434)。
ollama run <model> 指定されたモデルをインタラクティブなREPLで実行します。
ollama pull <model> 指定されたモデルをあなたのシステムにダウンロードします。
ollama push <model> モデルをOllamaレジストリにアップロードします。
ollama list ダウンロードされたすべてのモデルを一覧表示します。ollama lsと同じです。
ollama ps 現在実行中の(ロードされている)モデルを表示します。
ollama stop <model> 実行中のモデルを停止(アンロード)します。
ollama rm <model> モデルをあなたのシステムから削除します。
ollama cp <source> <dest> モデルを新しい名前でローカルにコピーします。
ollama show <model> モデルの詳細(アーキテクチャ、パラメータ、テンプレートなど)を表示します。
ollama create <model> Modelfileから新しいモデルを作成します。
ollama launch [integration] AIコーディングアシスタント(Claude Code、Codex、Droid、OpenCode)のゼロ構成起動。
ollama signin Ollamaレジストリで認証(プライベートモデルおよびクラウドモデルの利用を可能にします)。
ollama signout Ollamaレジストリからサインアウトします。
ollama help 任意のコマンドに関するヘルプを提供します。

ジャンプリンク: Ollama serveコマンド · Ollama launchコマンド · Ollama runコマンド · Ollama runフラグ · Ollama psコマンド · Ollama showコマンド · Ollama signin · Ollama CLI basics · パフォーマンス調整(OLLAMA_NUM_PARALLEL · 並列リクエストの詳細

Ollama CLI(何であるか)

Ollama CLIは、モデルを管理し、ローカルで実行/提供するためのコマンドラインインターフェースです。多くのワークフローは以下の通りです:

  • サーバーの起動: ollama serve
  • モデルの実行: ollama run <model>
  • ロード/実行中のものを見る: ollama ps
  • モデルの管理: ollama pull, ollama list, ollama rm

Ollamaモデル管理: モデルのpullとlistコマンド

モデルの一覧表示:

ollama list

同じく:

ollama ls

このコマンドは、あなたのシステムにダウンロードされたすべてのモデルを一覧表示し、HDD/SSD上のファイルサイズも表示します。

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  

モデルのダウンロード: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

このコマンドは、指定されたモデル(例: Gemma 2B、または mistral-nemo:12b-instruct-2407-q6_K)をあなたのシステムにダウンロードします。 モデルファイルは非常に大きい可能性があるため、ハードドライブまたはSSD上のモデルが使用するスペースに注意してください。 モデルをホームディレクトリから別の大きなドライブに移動することも検討してください: すべてのOllamaモデルをホームディレクトリから別のドライブに移動

モデルのアップロード: ollama push

ollama push my-custom-model

ローカルモデルをOllamaレジストリにアップロードして、他のユーザーがpullできるようにします。 最初にサインインする必要があります(ollama signin)し、モデル名はあなたのOllamaユーザー名でプレフィックス付けなければなりません、例: myuser/my-model。 HTTPでプライベートレジストリにプッシュする場合は--insecureフラグを使用してください:

ollama push myuser/my-model --insecure

モデルのコピー: ollama cp

ollama cp llama3.2 my-llama3-variant

モデルを新しい名前でローカルにコピーしますが、何も再ダウンロードしません。 Modelfileを編集する前に非常に便利です — まずコピーし、カスタマイズしたコピーを作成し、オリジナルを保持します:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Ollama showコマンド

ollama showは、ダウンロードされたモデルに関する情報を表示します。

ollama show qwen3:14b

デフォルトではモデルカード(アーキテクチャ、コンテキスト長、埋め込み長、量子化など)を表示します。 3つの便利なフラグがあります:

フラグ 表示内容
--modelfile モデルを作成するために使用されたModelfileの全文(FROM、SYSTEM、TEMPLATE、PARAMETER行)
--parameters みなしパラメータブロックのみ(例: num_ctxtemperaturestopトークン)
--verbose 拡張メタデータ(テンソル形状、レイヤー数など)
# どのシステムプロンプトとテンプレートでモデルが作成されたかを正確に確認
ollama show deepseek-r1:8b --modelfile

# コンテキストウィンドウサイズやその他の推論パラメータを確認
ollama show qwen3:14b --parameters

# 量子化時の詳細なテンソルレベル情報(デバッグに役立ちます)
ollama show llama3.2 --verbose

--modelfileの出力は、モデルをカスタマイズする前に特に役立ちます: 基本のModelfileをコピーし、そこから編集するのではなく、最初から書く必要はありません。

Ollama serveコマンド

ollama serveは、ローカルのOllamaサーバーを起動します(デフォルトのHTTPポートは11434)。

ollama serve

“ollama serve"コマンド(systemd対応の例):

# 環境変数を設定し、サーバーを起動
# ホストのIPアドレスでOllamaを有効にします
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama runコマンド

モデルの実行:

ollama run gpt-oss:20b

このコマンドは、指定されたモデルを起動し、インタラクティブなREPLで相互作用します。 Ollamaが複数の並列リクエストをどのように管理するかを理解したい場合は、 我々の詳細な分析でOllamaが並列リクエストを処理する方法を参照してください。

ollama runは、インタラクティブなセッションでモデルを実行します。 gpt-oss:120bの場合は、以下のように表示されます:

$ ollama run gpt-oss:120b
>>> メッセージを送信(/?でヘルプ) 

質問やコマンドをタイプし、モデルが応答します。

>>> who are you?
思考中...
ユーザーが「who are you?」と尋ねています。簡単な質問です。ChatGPTとして応答し、OpenAIでトレーニングされたAI言語モデルであることを述べ、
など。簡単な紹介を提供してください。おそらく助けが必要かどうか尋ねます。
...思考終了。

私はChatGPT、OpenAIが作成したAI言語モデルです。私は幅広いテキストにトレーニングされているため、質問に答える、アイデアをブレインストーミングする、概念を説明する、ライティングをドラフトする、問題をトラブルシューティングする、そしてもっと多くのことをお手伝いできます。私を多才なバーチャルアシスタントと考えてください—いつでも情報を提供、サポート、会話に役立ちます。今日、どのようにお手伝いできますか?

>>> メッセージを送信(/?でヘルプ)

インタラクティブなollamaセッションを終了するには、Ctrl+Dを押してください、または/byeとタイプしてください、どちらも同じ結果です:

>>> /bye
$ 

Ollama runコマンドの例

モデルを実行し、非インタラクティブモードで単一の質問を尋ねるには:

printf "Give me 10 bash one-liners for log analysis.\n" | ollama run llama3.2

ollamaセッションで詳細なverboseなLLM応答を表示したい場合は、モデルを実行するときに--verboseまたは-vパラメータを使用してください:

$ ollama run gpt-oss:20b --verbose
>>> who are you?
思考中...
単純な質問に応答する必要があります: "who are you?"。ユーザーは「who are you?」と尋ねています。私たちはChatGPT、OpenAIがトレーニングした大規模言語モデルであることを答えることができます。また、能力について言及することもできます。ユーザーはおそらく簡単な紹介を期待しています。フレンドリーにしましょう。
...思考終了。

私はChatGPT、OpenAIが作成した大規模言語モデルです。私は質問に答える、説明を提供する、アイデアをブレインストーミングし、幅広いトピックについてチャットするための存在です—科学、歴史、創作、日常のアドバイスなど、あらゆる分野。ただ、話したいことがあれば、お気軽にお知らせください!

total duration:       1.118585707s
load duration:        106.690543ms
prompt eval count:    71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate:     2327.30 tokens/s
eval count:           132 token(s)
eval duration:        945.801569ms
eval rate:            139.56 tokens/s
>>> /bye
$ 

はい、それがあっています、139トークン/秒です。gpt-oss:20bは非常に高速です。 もし、私と同じように16GB VRAMを持つGPUをお持ちであれば、LLMの速度比較の詳細については16GB VRAM GPUでOllamaに最適なLLMをご覧ください。

ヒント: モデルを複数のアプリでHTTP経由で利用したい場合は、ollama serveでサーバーを起動し、長時間のインタラクティブセッションの代わりにAPIクライアントを使用してください。

Ollama runフラグ(完全なリファレンス)

フラグ 説明
--verbose / -v 各応答後にタイミング統計(トークン/秒、ロード時間など)を表示
-p, --parameters Modelfileなしでモデルパラメータをインラインで指定(以下を参照)
--format string 特定の出力形式を強制(例: json
--nowordwrap 自動語のラッピングを無効化 — スクリプトに出力をパイプするときに便利
--insecure HTTP経由でレジストリに接続を許可(プライベート/セルフホストレジストリ用)

Modelfileなしでモデルパラメータを上書き(-p / –parameters)

-pフラグを使用して、Modelfileを作成せずに実行時の推論パラメータを変更できます。 複数の-pフラグをスタックさせることができます:

# コンテキストウィンドウを拡大し、温度を下げる
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# 確定的な出力でコーディングタスクを実行
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

このように設定できる一般的なパラメータ:

パラメータ 効果
num_ctx トークン単位のコンテキストウィンドウサイズ(デフォルトはモデル依存、通常2048–4096)
temperature 乱雑さ: 0 = 確定的、1 = 創造的
top_p ナクレアスサンプリングのしきい値
top_k トップ-Kトークンに語彙を制限
num_predict 生成する最大トークン数(-1 = 無制限)
repeat_penalty トークンの繰り返しにペナルティを課す

REPLでのマルチライン入力

トリプルクォート("``")でテキストをラップして、早期に送信せずにマルチラインプロンプトを入力できます:

>>> """この文を一文で要約してください:
... The quick brown fox jumps over the lazy dog.
... It happened on a Tuesday.
... """

マルチモーダルモデル(画像)

視覚機能を持つモデル(例: gemma3, llava)では、プロンプト内で直接画像のパスを指定します:

ollama run gemma3 "What's in this image? /home/user/screenshot.png"

CLI経由での埋め込み生成

埋め込みモデルはテキストではなくJSON配列を出力します。 一時的な埋め込みを迅速に生成するには、テキストを直接パイプしてください:

echo "Hello world" | ollama run nomic-embed-text

生産的な埋め込みワークロードでは、/api/embeddings RESTエンドポイントまたはPythonクライアントを使用してください。

JSON出力を強制(–format)

ollama run llama3.2 --format json "List 5 capital cities as JSON"

モデルは有効なJSONを返すよう指示されます。jqまたは構造化データを期待するスクリプトに出力をパイプするときに役立ちます。

Ollama stopコマンド

このコマンドは指定された実行中のモデルを停止します。

ollama stop llama3.1:8b-instruct-q8_0

Ollamaは自動的にモデルを一定時間後に削除します。 デフォルトでは4分です。 残りの時間を待たずに終了したい場合は、このollama stopコマンドを使用してください。 keep_alive=0パラメータで/generate APIエンドポイントを呼び出してモデルをVRAMから強制的に削除することもできます。以下に説明と例を示します。

Ollama psコマンド

ollama psは現在実行中のモデルとセッションを表示します(「なぜ私のVRAMがいっぱいなのか?」をデバッグするために役立ちます)。

ollama ps

ollama psの出力の例は以下の通りです:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutes from now

私のPCでは、gpt-oss:20bは私のGPUの16GB VRAMに非常にうまく収まり、14GBのみを占有しています。

もしollama run gpt-oss:120bを実行してからollama psを呼び出すと、結果は明るくありません: 78%のレイヤーがCPU上にあり、これはコンテキストウィンドウが4096トークンだけの状態です。コンテキストを増やした場合、さらに悪化します。

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutes from now

Ollama launchコマンド(AIコーディング統合)

ollama launchは、**Ollama v0.15(2026年1月)**で導入されたコマンドで、あなたのローカルOllamaサーバーに対してポピュラーなAIコーディングアシスタントをゼロ構成、ワンラインでセットアップできます。

なぜollama launchを使用するのか?

ollama launchが登場する前は、Claude CodeやCodexなどのコーディングエージェントをローカルのOllamaバックエンドに接続するには、手動で環境変数を設定し、正しいAPIエンドポイントにツールを指し示し、互換性のあるモデルを選択する必要がありました。ollama launchはこれらすべてをあなたに代わってインタラクティブに処理します。

すでにローカルでOllamaを実行しており、APIコールを支払わず、コードをクラウドに送らずにエージェンティックなコーディングアシスタントを使用したい場合は、ollama launchが最も速いパスです。

対応する統合

統合 何であるか
claude AnthropicのClaude Code — エージェンティックなコーディングアシスタント
codex OpenAIのCodex CLIコーディングアシスタント
droid FactoryのAIコーディングエージェント
opencode オープンソースのコーディングアシスタント

基本的な使用法

# インタラクティブな選択肢 — メニューから統合を選択
ollama launch

# 特定の統合を直接起動
ollama launch claude

# 特定のモデルで起動
ollama launch claude --model qwen3-coder

# 起動せずに統合を構成(設定を確認するのに役立ちます)
ollama launch droid --config

推奨されるモデル

コーディングエージェントは、ファイル全体のコンテキストとマルチターンの会話履歴を保持するために長いコンテキストウィンドウが必要です。 Ollamaは少なくとも64,000トークンのコンテキストを持つモデルを推奨しています:

モデル メモ
qwen3-coder 強力なコーディングパフォーマンス、長いコンテキスト、ローカルで実行可能
glm-4.7-flash ローカルの高速オプション
devstral:24b Mistralのコーディングに特化したモデル

GPUがモデルを収められない場合は、Ollamaはクラウドホストされたバリアント(例: qwen3-coder:480b-cloud)も提供しており、同じように統合できますが、推論をOllamaのクラウド層にルーティングし、ollama signinが必要です。

例: Ollamaを使用してClaude Codeをローカルで実行

# 1. モデルが利用可能であることを確認
ollama pull qwen3-coder

# 2. それにClaude Codeを起動
ollama launch claude --model qwen3-coder

Ollamaは必要な環境変数を設定し、自動的にhttp://localhost:11434に指すClaude Codeを起動します。 その後、Claude Codeは通常通り使用できます — 唯一の違いは、推論が自分のハードウェアで行われることです。

パフォーマンス調整(OLLAMA_NUM_PARALLEL

負荷がかかるとキューイングやタイムアウトが発生した場合、最初に学ぶべき調整は**OLLAMA_NUM_PARALLEL**です。

  • OLLAMA_NUM_PARALLEL = Ollamaが並列で実行するリクエストの数。
  • 高い値はスループットを増加させますが、VRAMの圧力や遅延のスパイクを増加させる可能性があります。

簡単な例:

OLLAMA_NUM_PARALLEL=2 ollama serve

完全な説明(調整戦略と失敗モードを含む)については、以下をご覧ください:

VRAMからOllamaモデルを解放(keep_alive)

モデルがVRAM(GPUメモリ)にロードされた後も、使用が完了した後でもそのままである。モデルをVRAMから明示的に解放し、GPUメモリを解放するには、Ollama APIにkeep_alive: 0付きのリクエストを送信してください。

  • curlを使用してVRAMからモデルを解放:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

MODELNAMEを実際のモデル名に置き換えてください、例えば:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Pythonを使用してVRAMからモデルを解放:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

これは特に次のとき役立ちます:

  • 他のアプリケーションのためにGPUメモリを解放する必要がある
  • 複数のモデルを実行し、VRAM使用量を管理したい
  • 大規模なモデルを使用し終え、リソースを即座に解放したい

注意: keep_aliveパラメータは、最後のリクエスト後、モデルがメモリにどのくらいの時間が保持されるかを秒単位で制御します。0に設定すると、モデルが即座にVRAMからアンロードされます。

Ollamaモデルのカスタマイズ(システムプロンプト、Modelfile)

  • システムプロンプトの設定: OllamaのREPL内で、モデルの動作をカスタマイズするためのシステムプロンプトを設定できます:

    >>> /set system 全ての質問に答えはできるだけ技術用語を避けて平易な英語で答えてください
    >>> /save ipe
    >>> /bye
    

    その後、カスタマイズされたモデルを実行します:

    ollama run ipe
    

    これにより、システムプロンプトが設定され、将来的に使用するためにモデルが保存されます。

  • カスタムモデルファイルの作成: テキストファイル(例: custom_model.txt)を作成し、次の構造を含めます:

    FROM llama3.1
    SYSTEM [あなたのカスタム指示をここに記入してください]
    

    その後、実行します:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    これにより、ファイル内の指示に基づいてカスタムモデルが作成されます。

Ollamaのサインインとサインアウト(レジストリ認証)

ollama signin
ollama signout

ollama signinは、ollama.comのOllamaレジストリとローカルのOllamaインストールを認証します。サインイン後、クライアントはローカルに資格情報を保存し、後続のコマンドで自動的に再利用します。

サインインで解除されるロック:

  • プライベートモデルをあなたのアカウントまたは組織からプルおよびプッシュ。
  • クラウドホストされたモデル(例: qwen3-coder:480b-cloud)を使用 — ローカルでは実行が困難なサイズ。
  • ollama pushを使用してレジストリにモデルを公開。

代替: APIキー認証

OllamaをCIパイプラインやヘッドレスサーバーで実行し、インタラクティブなollama signinが実用的でない場合、Ollamaアカウント設定でAPIキーを作成し、環境変数として公開してください:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

OLLAMA_API_KEY変数は、すべてのOllamaコマンドとAPIリクエストで自動的に拾われます — 各マシンでollama signinを実行する必要はありません。

Ollama runコマンドを使用してファイルを処理(要約、リダイレクト)

  • ファイルのテキストを要約:

    ollama run llama3.2 "このファイルの内容を50語で要約してください。" < input.txt
    

    このコマンドは、指定されたモデルを使用してinput.txtの内容を要約します。

  • モデルの応答をファイルにリダイレクト:

    ollama run llama3.2 "再生可能エネルギーについて教えてください。" > output.txt
    

    このコマンドは、モデルの応答をoutput.txtに保存します。

Ollama CLIの使用例(テキスト生成、分析)

  • テキスト生成:

    • 大きなテキストファイルの要約:
      ollama run llama3.2 "以下のテキストを要約してください:" < long-document.txt
      
    • コンテンツ生成:
      ollama run llama3.2 "AIを医療に使用する利点についての短い記事を書いてください。" > article.txt
      
    • 特定の質問への回答:
      ollama run llama3.2 "AIの最新トレンドと、それが医療に与える影響は?"
      

    .

  • データ処理と分析:

    • テキストをポジティブ、ネガティブ、または中立の感情に分類:
      ollama run llama3.2 "この顧客レビューの感情を分析してください: '製品は素晴らしいですが、配送が遅かったです。'"
      
    • 事前に定義されたカテゴリにテキストを分類: 類似したコマンドを使用して、事前に定義された基準に基づいてテキストを分類またはカテゴリ化できます。

OllamaとPythonの使用(クライアントとAPI)

  • Ollama Pythonライブラリのインストール:
    pip install ollama
    
  • Pythonを使用してテキストを生成:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='qubitとは?')
    print(response['response'])
    
    このコードスニペットは、指定されたモデルとプロンプトを使用してテキストを生成します。

高度なPython統合については、OllamaのWeb検索APIのPythonでの使用をご覧ください。これはWeb検索機能、ツールコール、MCPサーバー統合をカバーしています。AIを動力とするアプリケーションを構築している場合は、AIコーディングアシスタントの比較が開発に適したツールの選択を助けるでしょう。

ウェブベースのインターフェースを探している場合は、Open WebUIがRAG機能とマルチユーザーサポートを備えたセルフホストインターフェースを提供します。高パフォーマンスな生産性デプロイメントを検討している場合は、vLLMの代替をご覧ください。Ollamaを他のローカルおよびクラウドLLMインフラストラクチャオプションと比較したい場合は、LLMホスティング: ローカル、セルフホスト、クラウドインフラの比較をご覧ください。

有用なリンク

設定と管理

代替案と比較

パフォーマンスとハードウェア

統合と開発