Ollama CLI クイックリファレンス: ls, serve, run, ps + コマンド(2026年更新)
更新されたOllamaコマンド一覧 - ls, ps, run, serve など
このOllama CLI チェックリストは、ollama ls、ollama serve、ollama run、ollama ps、モデル管理、および一般的なワークフローに焦点を当てており、コピー/ペーストできる例も含まれています。
また、OLLAMA_NUM_PARALLEL および関連設定を深く掘り下げるための短い「パフォーマンス調整」セクションも含まれています。

このOllamaチェックリストはCLIコマンド、モデル管理、カスタマイズに焦点を当てています。 しかし、ここにもcurlのコールも含まれています。
Ollamaがローカル、セルフホスト、クラウドオプションの中でどの位置にあるのか、vLLM、Docker Model Runner、LocalAI、クラウドプロバイダーを含む比較については、LLM ホスティング: ローカル、セルフホスト、クラウドインフラの比較をご覧ください。ローカルLLMホスティングソリューションを比較している場合は、Ollama、vLLM、LocalAI、Jan、LM Studioなどに関する包括的な比較をご覧ください。コマンドラインインターフェースの代替を検討している場合は、Docker Model RunnerがLLMデプロイメントの別のアプローチを提供しています。
Ollamaのインストール(ダウンロードとCLIインストール)
- オプション1: ウェブサイトからダウンロード
- ollama.comにアクセスし、Mac、Linux、またはWindows用のインストーラーをダウンロードしてください。
- オプション2: コマンドラインでインストール
- MacおよびLinuxユーザーは次のコマンドを使用してください:
curl -fsSL https://ollama.com/install.sh | sh
- 画面表示に従ってください。パスワードが求められたら入力してください。
Ollamaのシステム要件(RAM、ストレージ、CPU)
- オペレーティングシステム: Mac、Linux、またはWindows
- メモリ(RAM): 最小8GB、推奨16GB以上
- ストレージ: 約10GB以上の空き容量(モデルファイルは非常に大きく、ここを参照してOllamaモデルを別のドライブに移動してください)
- プロセッサ: 比較的新しいCPU(過去5年以内)。OllamaがさまざまなCPUアーキテクチャをどのように利用しているかについては、OllamaがIntel CPUのパフォーマンスコアと効率コアを使用する方法をご覧ください。
本格的なAIワークロードでは、ハードウェアオプションを比較することをお勧めします。我々はNVIDIA DGX Spark vs Mac Studio vs RTX-4080のOllamaパフォーマンス比較をベンチマークしており、高価なハードウェアへの投資を検討している場合は、DGX Sparkの価格と機能比較が詳細なコスト分析を提供しています。
基本的なOllama CLIコマンド
| コマンド | 説明 |
|---|---|
ollama serve |
Ollamaサーバーを開始します(デフォルトポート11434)。 |
ollama run <model> |
指定されたモデルをインタラクティブなREPLで実行します。 |
ollama pull <model> |
指定されたモデルをあなたのシステムにダウンロードします。 |
ollama push <model> |
モデルをOllamaレジストリにアップロードします。 |
ollama list |
ダウンロードされたすべてのモデルを一覧表示します。ollama lsと同じです。 |
ollama ps |
現在実行中の(ロードされている)モデルを表示します。 |
ollama stop <model> |
実行中のモデルを停止(アンロード)します。 |
ollama rm <model> |
モデルをあなたのシステムから削除します。 |
ollama cp <source> <dest> |
モデルを新しい名前でローカルにコピーします。 |
ollama show <model> |
モデルの詳細(アーキテクチャ、パラメータ、テンプレートなど)を表示します。 |
ollama create <model> |
Modelfileから新しいモデルを作成します。 |
ollama launch [integration] |
AIコーディングアシスタント(Claude Code、Codex、Droid、OpenCode)のゼロ構成起動。 |
ollama signin |
Ollamaレジストリで認証(プライベートモデルおよびクラウドモデルの利用を可能にします)。 |
ollama signout |
Ollamaレジストリからサインアウトします。 |
ollama help |
任意のコマンドに関するヘルプを提供します。 |
ジャンプリンク: Ollama serveコマンド · Ollama launchコマンド · Ollama runコマンド · Ollama runフラグ · Ollama psコマンド · Ollama showコマンド · Ollama signin · Ollama CLI basics · パフォーマンス調整(OLLAMA_NUM_PARALLEL) · 並列リクエストの詳細
Ollama CLI(何であるか)
Ollama CLIは、モデルを管理し、ローカルで実行/提供するためのコマンドラインインターフェースです。多くのワークフローは以下の通りです:
- サーバーの起動:
ollama serve - モデルの実行:
ollama run <model> - ロード/実行中のものを見る:
ollama ps - モデルの管理:
ollama pull,ollama list,ollama rm
Ollamaモデル管理: モデルのpullとlistコマンド
モデルの一覧表示:
ollama list
同じく:
ollama ls
このコマンドは、あなたのシステムにダウンロードされたすべてのモデルを一覧表示し、HDD/SSD上のファイルサイズも表示します。
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago
qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago
qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago
devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago
モデルのダウンロード: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
このコマンドは、指定されたモデル(例: Gemma 2B、または mistral-nemo:12b-instruct-2407-q6_K)をあなたのシステムにダウンロードします。 モデルファイルは非常に大きい可能性があるため、ハードドライブまたはSSD上のモデルが使用するスペースに注意してください。 モデルをホームディレクトリから別の大きなドライブに移動することも検討してください: すべてのOllamaモデルをホームディレクトリから別のドライブに移動
モデルのアップロード: ollama push
ollama push my-custom-model
ローカルモデルをOllamaレジストリにアップロードして、他のユーザーがpullできるようにします。
最初にサインインする必要があります(ollama signin)し、モデル名はあなたのOllamaユーザー名でプレフィックス付けなければなりません、例: myuser/my-model。
HTTPでプライベートレジストリにプッシュする場合は--insecureフラグを使用してください:
ollama push myuser/my-model --insecure
モデルのコピー: ollama cp
ollama cp llama3.2 my-llama3-variant
モデルを新しい名前でローカルにコピーしますが、何も再ダウンロードしません。 Modelfileを編集する前に非常に便利です — まずコピーし、カスタマイズしたコピーを作成し、オリジナルを保持します:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Ollama showコマンド
ollama showは、ダウンロードされたモデルに関する情報を表示します。
ollama show qwen3:14b
デフォルトではモデルカード(アーキテクチャ、コンテキスト長、埋め込み長、量子化など)を表示します。 3つの便利なフラグがあります:
| フラグ | 表示内容 |
|---|---|
--modelfile |
モデルを作成するために使用されたModelfileの全文(FROM、SYSTEM、TEMPLATE、PARAMETER行) |
--parameters |
みなしパラメータブロックのみ(例: num_ctx、temperature、stopトークン) |
--verbose |
拡張メタデータ(テンソル形状、レイヤー数など) |
# どのシステムプロンプトとテンプレートでモデルが作成されたかを正確に確認
ollama show deepseek-r1:8b --modelfile
# コンテキストウィンドウサイズやその他の推論パラメータを確認
ollama show qwen3:14b --parameters
# 量子化時の詳細なテンソルレベル情報(デバッグに役立ちます)
ollama show llama3.2 --verbose
--modelfileの出力は、モデルをカスタマイズする前に特に役立ちます: 基本のModelfileをコピーし、そこから編集するのではなく、最初から書く必要はありません。
Ollama serveコマンド
ollama serveは、ローカルのOllamaサーバーを起動します(デフォルトのHTTPポートは11434)。
ollama serve
“ollama serve"コマンド(systemd対応の例):
# 環境変数を設定し、サーバーを起動
# ホストのIPアドレスでOllamaを有効にします
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Ollama runコマンド
モデルの実行:
ollama run gpt-oss:20b
このコマンドは、指定されたモデルを起動し、インタラクティブなREPLで相互作用します。 Ollamaが複数の並列リクエストをどのように管理するかを理解したい場合は、 我々の詳細な分析でOllamaが並列リクエストを処理する方法を参照してください。
ollama runは、インタラクティブなセッションでモデルを実行します。
gpt-oss:120bの場合は、以下のように表示されます:
$ ollama run gpt-oss:120b
>>> メッセージを送信(/?でヘルプ)
質問やコマンドをタイプし、モデルが応答します。
>>> who are you?
思考中...
ユーザーが「who are you?」と尋ねています。簡単な質問です。ChatGPTとして応答し、OpenAIでトレーニングされたAI言語モデルであることを述べ、
など。簡単な紹介を提供してください。おそらく助けが必要かどうか尋ねます。
...思考終了。
私はChatGPT、OpenAIが作成したAI言語モデルです。私は幅広いテキストにトレーニングされているため、質問に答える、アイデアをブレインストーミングする、概念を説明する、ライティングをドラフトする、問題をトラブルシューティングする、そしてもっと多くのことをお手伝いできます。私を多才なバーチャルアシスタントと考えてください—いつでも情報を提供、サポート、会話に役立ちます。今日、どのようにお手伝いできますか?
>>> メッセージを送信(/?でヘルプ)
インタラクティブなollamaセッションを終了するには、Ctrl+Dを押してください、または/byeとタイプしてください、どちらも同じ結果です:
>>> /bye
$
Ollama runコマンドの例
モデルを実行し、非インタラクティブモードで単一の質問を尋ねるには:
printf "Give me 10 bash one-liners for log analysis.\n" | ollama run llama3.2
ollamaセッションで詳細なverboseなLLM応答を表示したい場合は、モデルを実行するときに--verboseまたは-vパラメータを使用してください:
$ ollama run gpt-oss:20b --verbose
>>> who are you?
思考中...
単純な質問に応答する必要があります: "who are you?"。ユーザーは「who are you?」と尋ねています。私たちはChatGPT、OpenAIがトレーニングした大規模言語モデルであることを答えることができます。また、能力について言及することもできます。ユーザーはおそらく簡単な紹介を期待しています。フレンドリーにしましょう。
...思考終了。
私はChatGPT、OpenAIが作成した大規模言語モデルです。私は質問に答える、説明を提供する、アイデアをブレインストーミングし、幅広いトピックについてチャットするための存在です—科学、歴史、創作、日常のアドバイスなど、あらゆる分野。ただ、話したいことがあれば、お気軽にお知らせください!
total duration: 1.118585707s
load duration: 106.690543ms
prompt eval count: 71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate: 2327.30 tokens/s
eval count: 132 token(s)
eval duration: 945.801569ms
eval rate: 139.56 tokens/s
>>> /bye
$
はい、それがあっています、139トークン/秒です。gpt-oss:20bは非常に高速です。 もし、私と同じように16GB VRAMを持つGPUをお持ちであれば、LLMの速度比較の詳細については16GB VRAM GPUでOllamaに最適なLLMをご覧ください。
ヒント: モデルを複数のアプリでHTTP経由で利用したい場合は、ollama serveでサーバーを起動し、長時間のインタラクティブセッションの代わりにAPIクライアントを使用してください。
Ollama runフラグ(完全なリファレンス)
| フラグ | 説明 |
|---|---|
--verbose / -v |
各応答後にタイミング統計(トークン/秒、ロード時間など)を表示 |
-p, --parameters |
Modelfileなしでモデルパラメータをインラインで指定(以下を参照) |
--format string |
特定の出力形式を強制(例: json) |
--nowordwrap |
自動語のラッピングを無効化 — スクリプトに出力をパイプするときに便利 |
--insecure |
HTTP経由でレジストリに接続を許可(プライベート/セルフホストレジストリ用) |
Modelfileなしでモデルパラメータを上書き(-p / –parameters)
-pフラグを使用して、Modelfileを作成せずに実行時の推論パラメータを変更できます。
複数の-pフラグをスタックさせることができます:
# コンテキストウィンドウを拡大し、温度を下げる
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# 確定的な出力でコーディングタスクを実行
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
このように設定できる一般的なパラメータ:
| パラメータ | 効果 |
|---|---|
num_ctx |
トークン単位のコンテキストウィンドウサイズ(デフォルトはモデル依存、通常2048–4096) |
temperature |
乱雑さ: 0 = 確定的、1 = 創造的 |
top_p |
ナクレアスサンプリングのしきい値 |
top_k |
トップ-Kトークンに語彙を制限 |
num_predict |
生成する最大トークン数(-1 = 無制限) |
repeat_penalty |
トークンの繰り返しにペナルティを課す |
REPLでのマルチライン入力
トリプルクォート("``")でテキストをラップして、早期に送信せずにマルチラインプロンプトを入力できます:
>>> """この文を一文で要約してください:
... The quick brown fox jumps over the lazy dog.
... It happened on a Tuesday.
... """
マルチモーダルモデル(画像)
視覚機能を持つモデル(例: gemma3, llava)では、プロンプト内で直接画像のパスを指定します:
ollama run gemma3 "What's in this image? /home/user/screenshot.png"
CLI経由での埋め込み生成
埋め込みモデルはテキストではなくJSON配列を出力します。 一時的な埋め込みを迅速に生成するには、テキストを直接パイプしてください:
echo "Hello world" | ollama run nomic-embed-text
生産的な埋め込みワークロードでは、/api/embeddings RESTエンドポイントまたはPythonクライアントを使用してください。
JSON出力を強制(–format)
ollama run llama3.2 --format json "List 5 capital cities as JSON"
モデルは有効なJSONを返すよう指示されます。jqまたは構造化データを期待するスクリプトに出力をパイプするときに役立ちます。
Ollama stopコマンド
このコマンドは指定された実行中のモデルを停止します。
ollama stop llama3.1:8b-instruct-q8_0
Ollamaは自動的にモデルを一定時間後に削除します。
デフォルトでは4分です。
残りの時間を待たずに終了したい場合は、このollama stopコマンドを使用してください。
keep_alive=0パラメータで/generate APIエンドポイントを呼び出してモデルをVRAMから強制的に削除することもできます。以下に説明と例を示します。
Ollama psコマンド
ollama psは現在実行中のモデルとセッションを表示します(「なぜ私のVRAMがいっぱいなのか?」をデバッグするために役立ちます)。
ollama ps
ollama psの出力の例は以下の通りです:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minutes from now
私のPCでは、gpt-oss:20bは私のGPUの16GB VRAMに非常にうまく収まり、14GBのみを占有しています。
もしollama run gpt-oss:120bを実行してからollama psを呼び出すと、結果は明るくありません:
78%のレイヤーがCPU上にあり、これはコンテキストウィンドウが4096トークンだけの状態です。コンテキストを増やした場合、さらに悪化します。
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minutes from now
Ollama launchコマンド(AIコーディング統合)
ollama launchは、**Ollama v0.15(2026年1月)**で導入されたコマンドで、あなたのローカルOllamaサーバーに対してポピュラーなAIコーディングアシスタントをゼロ構成、ワンラインでセットアップできます。
なぜollama launchを使用するのか?
ollama launchが登場する前は、Claude CodeやCodexなどのコーディングエージェントをローカルのOllamaバックエンドに接続するには、手動で環境変数を設定し、正しいAPIエンドポイントにツールを指し示し、互換性のあるモデルを選択する必要がありました。ollama launchはこれらすべてをあなたに代わってインタラクティブに処理します。
すでにローカルでOllamaを実行しており、APIコールを支払わず、コードをクラウドに送らずにエージェンティックなコーディングアシスタントを使用したい場合は、ollama launchが最も速いパスです。
対応する統合
| 統合 | 何であるか |
|---|---|
claude |
AnthropicのClaude Code — エージェンティックなコーディングアシスタント |
codex |
OpenAIのCodex CLIコーディングアシスタント |
droid |
FactoryのAIコーディングエージェント |
opencode |
オープンソースのコーディングアシスタント |
基本的な使用法
# インタラクティブな選択肢 — メニューから統合を選択
ollama launch
# 特定の統合を直接起動
ollama launch claude
# 特定のモデルで起動
ollama launch claude --model qwen3-coder
# 起動せずに統合を構成(設定を確認するのに役立ちます)
ollama launch droid --config
推奨されるモデル
コーディングエージェントは、ファイル全体のコンテキストとマルチターンの会話履歴を保持するために長いコンテキストウィンドウが必要です。 Ollamaは少なくとも64,000トークンのコンテキストを持つモデルを推奨しています:
| モデル | メモ |
|---|---|
qwen3-coder |
強力なコーディングパフォーマンス、長いコンテキスト、ローカルで実行可能 |
glm-4.7-flash |
ローカルの高速オプション |
devstral:24b |
Mistralのコーディングに特化したモデル |
GPUがモデルを収められない場合は、Ollamaはクラウドホストされたバリアント(例: qwen3-coder:480b-cloud)も提供しており、同じように統合できますが、推論をOllamaのクラウド層にルーティングし、ollama signinが必要です。
例: Ollamaを使用してClaude Codeをローカルで実行
# 1. モデルが利用可能であることを確認
ollama pull qwen3-coder
# 2. それにClaude Codeを起動
ollama launch claude --model qwen3-coder
Ollamaは必要な環境変数を設定し、自動的にhttp://localhost:11434に指すClaude Codeを起動します。
その後、Claude Codeは通常通り使用できます — 唯一の違いは、推論が自分のハードウェアで行われることです。
パフォーマンス調整(OLLAMA_NUM_PARALLEL)
負荷がかかるとキューイングやタイムアウトが発生した場合、最初に学ぶべき調整は**OLLAMA_NUM_PARALLEL**です。
OLLAMA_NUM_PARALLEL= Ollamaが並列で実行するリクエストの数。- 高い値はスループットを増加させますが、VRAMの圧力や遅延のスパイクを増加させる可能性があります。
簡単な例:
OLLAMA_NUM_PARALLEL=2 ollama serve
完全な説明(調整戦略と失敗モードを含む)については、以下をご覧ください:
VRAMからOllamaモデルを解放(keep_alive)
モデルがVRAM(GPUメモリ)にロードされた後も、使用が完了した後でもそのままである。モデルをVRAMから明示的に解放し、GPUメモリを解放するには、Ollama APIにkeep_alive: 0付きのリクエストを送信してください。
- curlを使用してVRAMからモデルを解放:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
MODELNAMEを実際のモデル名に置き換えてください、例えば:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Pythonを使用してVRAMからモデルを解放:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
これは特に次のとき役立ちます:
- 他のアプリケーションのためにGPUメモリを解放する必要がある
- 複数のモデルを実行し、VRAM使用量を管理したい
- 大規模なモデルを使用し終え、リソースを即座に解放したい
注意: keep_aliveパラメータは、最後のリクエスト後、モデルがメモリにどのくらいの時間が保持されるかを秒単位で制御します。0に設定すると、モデルが即座にVRAMからアンロードされます。
Ollamaモデルのカスタマイズ(システムプロンプト、Modelfile)
-
システムプロンプトの設定: OllamaのREPL内で、モデルの動作をカスタマイズするためのシステムプロンプトを設定できます:
>>> /set system 全ての質問に答えはできるだけ技術用語を避けて平易な英語で答えてください >>> /save ipe >>> /byeその後、カスタマイズされたモデルを実行します:
ollama run ipeこれにより、システムプロンプトが設定され、将来的に使用するためにモデルが保存されます。
-
カスタムモデルファイルの作成: テキストファイル(例:
custom_model.txt)を作成し、次の構造を含めます:FROM llama3.1 SYSTEM [あなたのカスタム指示をここに記入してください]その後、実行します:
ollama create mymodel -f custom_model.txt ollama run mymodelこれにより、ファイル内の指示に基づいてカスタムモデルが作成されます。
Ollamaのサインインとサインアウト(レジストリ認証)
ollama signin
ollama signout
ollama signinは、ollama.comのOllamaレジストリとローカルのOllamaインストールを認証します。サインイン後、クライアントはローカルに資格情報を保存し、後続のコマンドで自動的に再利用します。
サインインで解除されるロック:
- プライベートモデルをあなたのアカウントまたは組織からプルおよびプッシュ。
- クラウドホストされたモデル(例:
qwen3-coder:480b-cloud)を使用 — ローカルでは実行が困難なサイズ。 ollama pushを使用してレジストリにモデルを公開。
代替: APIキー認証
OllamaをCIパイプラインやヘッドレスサーバーで実行し、インタラクティブなollama signinが実用的でない場合、Ollamaアカウント設定でAPIキーを作成し、環境変数として公開してください:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
OLLAMA_API_KEY変数は、すべてのOllamaコマンドとAPIリクエストで自動的に拾われます — 各マシンでollama signinを実行する必要はありません。
Ollama runコマンドを使用してファイルを処理(要約、リダイレクト)
-
ファイルのテキストを要約:
ollama run llama3.2 "このファイルの内容を50語で要約してください。" < input.txtこのコマンドは、指定されたモデルを使用して
input.txtの内容を要約します。 -
モデルの応答をファイルにリダイレクト:
ollama run llama3.2 "再生可能エネルギーについて教えてください。" > output.txtこのコマンドは、モデルの応答を
output.txtに保存します。
Ollama CLIの使用例(テキスト生成、分析)
-
テキスト生成:
- 大きなテキストファイルの要約:
ollama run llama3.2 "以下のテキストを要約してください:" < long-document.txt - コンテンツ生成:
ollama run llama3.2 "AIを医療に使用する利点についての短い記事を書いてください。" > article.txt - 特定の質問への回答:
ollama run llama3.2 "AIの最新トレンドと、それが医療に与える影響は?"
.
- 大きなテキストファイルの要約:
-
データ処理と分析:
- テキストをポジティブ、ネガティブ、または中立の感情に分類:
ollama run llama3.2 "この顧客レビューの感情を分析してください: '製品は素晴らしいですが、配送が遅かったです。'" - 事前に定義されたカテゴリにテキストを分類: 類似したコマンドを使用して、事前に定義された基準に基づいてテキストを分類またはカテゴリ化できます。
- テキストをポジティブ、ネガティブ、または中立の感情に分類:
OllamaとPythonの使用(クライアントとAPI)
- Ollama Pythonライブラリのインストール:
pip install ollama - Pythonを使用してテキストを生成:
このコードスニペットは、指定されたモデルとプロンプトを使用してテキストを生成します。
import ollama response = ollama.generate(model='gemma:2b', prompt='qubitとは?') print(response['response'])
高度なPython統合については、OllamaのWeb検索APIのPythonでの使用をご覧ください。これはWeb検索機能、ツールコール、MCPサーバー統合をカバーしています。AIを動力とするアプリケーションを構築している場合は、AIコーディングアシスタントの比較が開発に適したツールの選択を助けるでしょう。
ウェブベースのインターフェースを探している場合は、Open WebUIがRAG機能とマルチユーザーサポートを備えたセルフホストインターフェースを提供します。高パフォーマンスな生産性デプロイメントを検討している場合は、vLLMの代替をご覧ください。Ollamaを他のローカルおよびクラウドLLMインフラストラクチャオプションと比較したい場合は、LLMホスティング: ローカル、セルフホスト、クラウドインフラの比較をご覧ください。
有用なリンク
設定と管理
代替案と比較
- ローカルLLMホスティング: 2026年の完全ガイド - Ollama、vLLM、LocalAI、Jan、LM Studioなど
- vLLMクイックスタート: 高パフォーマンスLLMサービング
- Docker Model RunnerとOllama: どちらを選ぶべきか?
- Ollama Enshittificationの最初の兆候
パフォーマンスとハードウェア
- Ollamaが並列リクエストを処理する方法
- OllamaがIntel CPUのパフォーマンスコアと効率コアを使用する方法
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaパフォーマンス比較
- DGX Spark vs. Mac Studio: NVIDIAの個人用AIスーパーコンピュータの実用的で価格チェック済みの比較