Ollama チートシート - 最も役立つコマンド
以前にこのOllamaコマンドリストを編集したことがあります。
以下は、Ollama コマンドのリストと例です([Ollama コマンドのチートシート](https://www.glukhov.org/ja/post/2024/12/ollama-cheatsheet/ “ollama commands cheat sheet”))。
以前にまとめたものです。
あなたにとっても役立つことを願っています(役立つことを願っています)。

この Ollama チートシートは CLI コマンド、モデル管理、カスタマイズに焦点を当てています。
しかし、ここには curl のコールも含まれています。
インストール
- オプション1: ウェブサイトからダウンロード
- ollama.com を訪問し、使用しているオペレーティングシステム(Mac、Linux、または Windows)用のインストーラーをダウンロードしてください。
- オプション2: コマンドラインでインストール
- Mac および Linux ユーザーは次のコマンドを使用してください:
curl https://ollama.ai/install.sh | sh
- 画面表示に従ってください。パスワードが求められたら入力してください。
システム要件
- オペレーティングシステム: Mac または Linux(Windows バージョンは開発中)
- メモリ(RAM): 最小8GB、16GB以上が推奨されます
- ストレージ: 10GB以上の空き容量(モデルファイルは非常に大きく、詳しくはここを参照してください Ollama モデルを別のドライブに移動)
- プロセッサ: 5年前のものから比較的新しいCPU
基本的な Ollama CLI コマンド
| コマンド | 説明 |
|---|---|
ollama serve |
あなたのローカルシステムで Ollama を起動します。 |
ollama create <new_model> |
既存のモデルからカスタマイズやトレーニングのために新しいモデルを作成します。 |
ollama show <model> |
特定のモデルの詳細(構成やリリース日など)を表示します。 |
ollama run <model> |
指定されたモデルを実行し、インタラクションが可能になります。 |
ollama pull <model> |
指定されたモデルをあなたのシステムにダウンロードします。 |
ollama list |
ダウンロードされたすべてのモデルを一覧表示します。 ollama ls と同じです。 |
ollama ps |
現在実行中のモデルを表示します。 |
ollama stop <model> |
指定された実行中のモデルを停止します。 |
ollama rm <model> |
指定されたモデルをあなたのシステムから削除します。 |
ollama help |
任意のコマンドについてのヘルプを提供します。 |
モデル管理
-
モデルのダウンロード:
ollama pull mistral-nemo:12b-instruct-2407-q6_Kこのコマンドは、指定されたモデル(例: Gemma 2B、または mistral-nemo:12b-instruct-2407-q6_K)をあなたのシステムにダウンロードします。
モデルファイルは非常に大きい場合があるため、ハードディスクまたはSSD上のモデルが使用するスペースに注意してください。
すべての Ollama モデルをホームディレクトリから別のより大きいドライブに移動することも検討してください Ollama モデルを別のドライブに移動。 -
モデルの実行:
ollama run qwen2.5:32b-instruct-q3_K_Sこのコマンドは指定されたモデルを起動し、インタラクティブな REPL を開きます。
-
モデルの一覧表示:
ollama listこれは同じです:
ollama lsこのコマンドは、あなたのシステムにダウンロードされたすべてのモデルを一覧表示します。
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago -
モデルの停止:
ollama stop llama3.1:8b-instruct-q8_0このコマンドは指定された実行中のモデルを停止します。
VRAM からモデルを解放する
モデルが VRAM(GPU メモリ)に読み込まれると、使用が終わってもそのままでいます。モデルを VRAM から明示的に解放し、GPU メモリを解放するには、keep_alive: 0 で Ollama API にリクエストを送信できます。
- curl を使用して VRAM からモデルを解放:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
MODELNAME を実際のモデル名に置き換えてください。例えば:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Python を使用して VRAM からモデルを解放:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
これは特に以下のケースに役立ちます:
- 他のアプリケーションのために GPU メモリを解放したいとき
- 複数のモデルを実行し、VRAM 使用量を管理したいとき
- 大規模なモデルを使用し終え、リソースをすぐに解放したいとき
注意: keep_alive パラメータは、最後のリクエスト後、モデルがメモリにどのくらいの時間(秒単位)保持されるかを制御します。0 に設定すると、モデルがすぐに VRAM からアンロードされます。
モデルのカスタマイズ
-
システムプロンプトの設定: Ollama REPL 内で、モデルの動作をカスタマイズするためのシステムプロンプトを設定できます:
>>> /set system すべての質問に対して、技術用語をできるだけ避けて、平易な英語で回答してください >>> /save ipe >>> /byeその後、カスタマイズされたモデルを実行します:
ollama run ipeこれにより、システムプロンプトが設定され、モデルが将来的に使用できるように保存されます。
-
カスタムモデルファイルの作成:
custom_model.txtなどのテキストファイルを作成し、以下の構造を使用してください:FROM llama3.1 SYSTEM [ここにカスタム指示を入力してください]その後、次のコマンドを実行してください:
ollama create mymodel -f custom_model.txt ollama run mymodelこれにより、ファイル内の指示に基づいたカスタムモデルが作成されます。
ファイルと Ollama の併用
-
ファイルのテキストを要約:
ollama run llama3.2 "このファイルの内容を50語で要約してください。" < input.txtこのコマンドは、指定されたモデルを使用して
input.txtの内容を要約します。 -
モデルの応答をファイルにログ:
ollama run llama3.2 "再生可能エネルギーについて教えてください。" > output.txtこのコマンドは、モデルの応答を
output.txtに保存します。
一般的な使用ケース
-
テキスト生成:
- 大きなテキストファイルの要約:
ollama run llama3.2 "以下のテキストを要約してください:" < long-document.txt - コンテンツ生成:
ollama run llama3.2 "AIを医療に活用する利点についての短い記事を書いてください。" > article.txt - 特定の質問への回答:
ollama run llama3.2 "AIの最新トレンドと、それが医療に与える影響について教えてください。"
.
- 大きなテキストファイルの要約:
-
データ処理と分析:
- テキストをポジティブ、ネガティブ、またはニュートラルな感情に分類:
ollama run llama3.2 "この顧客レビューの感情を分析してください: '製品は素晴らしいですが、配送が遅かったです。'" - 事前に定義されたカテゴリにテキストを分類: 類似したコマンドを使用して、事前に定義された基準に基づいてテキストを分類またはカテゴリ化できます。
- テキストをポジティブ、ネガティブ、またはニュートラルな感情に分類:
Python と Ollama の併用
- Ollama Python ライブラリのインストール:
pip install ollama - Python を使用したテキスト生成:
このコードスニペットは、指定されたモデルとプロンプトを使用してテキストを生成します。
import ollama response = ollama.generate(model='gemma:2b', prompt='量子ビットとは何ですか?') print(response['response'])