Ollama チートシート - 最も役立つコマンド

以前にこのOllamaコマンドリストを編集したことがあります。

目次

以下は、Ollama コマンドのリストと例です([Ollama コマンドのチートシート](https://www.glukhov.org/ja/post/2024/12/ollama-cheatsheet/ “ollama commands cheat sheet”))。
以前にまとめたものです。
あなたにとっても役立つことを願っています(役立つことを願っています)。

ollama cheatsheet

この Ollama チートシートは CLI コマンド、モデル管理、カスタマイズに焦点を当てています。
しかし、ここには curl のコールも含まれています。

インストール

  • オプション1: ウェブサイトからダウンロード
    • ollama.com を訪問し、使用しているオペレーティングシステム(Mac、Linux、または Windows)用のインストーラーをダウンロードしてください。
  • オプション2: コマンドラインでインストール
    • Mac および Linux ユーザーは次のコマンドを使用してください:
curl https://ollama.ai/install.sh | sh
  • 画面表示に従ってください。パスワードが求められたら入力してください。

システム要件

  • オペレーティングシステム: Mac または Linux(Windows バージョンは開発中)
  • メモリ(RAM): 最小8GB、16GB以上が推奨されます
  • ストレージ: 10GB以上の空き容量(モデルファイルは非常に大きく、詳しくはここを参照してください Ollama モデルを別のドライブに移動
  • プロセッサ: 5年前のものから比較的新しいCPU

基本的な Ollama CLI コマンド

コマンド 説明
ollama serve あなたのローカルシステムで Ollama を起動します。
ollama create <new_model> 既存のモデルからカスタマイズやトレーニングのために新しいモデルを作成します。
ollama show <model> 特定のモデルの詳細(構成やリリース日など)を表示します。
ollama run <model> 指定されたモデルを実行し、インタラクションが可能になります。
ollama pull <model> 指定されたモデルをあなたのシステムにダウンロードします。
ollama list ダウンロードされたすべてのモデルを一覧表示します。 ollama ls と同じです。
ollama ps 現在実行中のモデルを表示します。
ollama stop <model> 指定された実行中のモデルを停止します。
ollama rm <model> 指定されたモデルをあなたのシステムから削除します。
ollama help 任意のコマンドについてのヘルプを提供します。

モデル管理

  • モデルのダウンロード:

    ollama pull mistral-nemo:12b-instruct-2407-q6_K
    

    このコマンドは、指定されたモデル(例: Gemma 2B、または mistral-nemo:12b-instruct-2407-q6_K)をあなたのシステムにダウンロードします。
    モデルファイルは非常に大きい場合があるため、ハードディスクまたはSSD上のモデルが使用するスペースに注意してください。
    すべての Ollama モデルをホームディレクトリから別のより大きいドライブに移動することも検討してください Ollama モデルを別のドライブに移動

  • モデルの実行:

    ollama run qwen2.5:32b-instruct-q3_K_S
    

    このコマンドは指定されたモデルを起動し、インタラクティブな REPL を開きます。

  • モデルの一覧表示:

    ollama list
    

    これは同じです:

    ollama ls
    

    このコマンドは、あなたのシステムにダウンロードされたすべてのモデルを一覧表示します。

    $ ollama ls
    NAME                                                    ID              SIZE      MODIFIED     
    deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
    gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
    LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
    dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
    dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
    qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
    qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
    qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
    devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  
    
  • モデルの停止:

    ollama stop llama3.1:8b-instruct-q8_0
    

    このコマンドは指定された実行中のモデルを停止します。

VRAM からモデルを解放する

モデルが VRAM(GPU メモリ)に読み込まれると、使用が終わってもそのままでいます。モデルを VRAM から明示的に解放し、GPU メモリを解放するには、keep_alive: 0 で Ollama API にリクエストを送信できます。

  • curl を使用して VRAM からモデルを解放:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

MODELNAME を実際のモデル名に置き換えてください。例えば:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Python を使用して VRAM からモデルを解放:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

これは特に以下のケースに役立ちます:

  • 他のアプリケーションのために GPU メモリを解放したいとき
  • 複数のモデルを実行し、VRAM 使用量を管理したいとき
  • 大規模なモデルを使用し終え、リソースをすぐに解放したいとき

注意: keep_alive パラメータは、最後のリクエスト後、モデルがメモリにどのくらいの時間(秒単位)保持されるかを制御します。0 に設定すると、モデルがすぐに VRAM からアンロードされます。

モデルのカスタマイズ

  • システムプロンプトの設定: Ollama REPL 内で、モデルの動作をカスタマイズするためのシステムプロンプトを設定できます:

    >>> /set system すべての質問に対して、技術用語をできるだけ避けて、平易な英語で回答してください
    >>> /save ipe
    >>> /bye
    

    その後、カスタマイズされたモデルを実行します:

    ollama run ipe
    

    これにより、システムプロンプトが設定され、モデルが将来的に使用できるように保存されます。

  • カスタムモデルファイルの作成: custom_model.txt などのテキストファイルを作成し、以下の構造を使用してください:

    FROM llama3.1
    SYSTEM [ここにカスタム指示を入力してください]
    

    その後、次のコマンドを実行してください:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    これにより、ファイル内の指示に基づいたカスタムモデルが作成されます。

ファイルと Ollama の併用

  • ファイルのテキストを要約:

    ollama run llama3.2 "このファイルの内容を50語で要約してください。" < input.txt
    

    このコマンドは、指定されたモデルを使用して input.txt の内容を要約します。

  • モデルの応答をファイルにログ:

    ollama run llama3.2 "再生可能エネルギーについて教えてください。" > output.txt
    

    このコマンドは、モデルの応答を output.txt に保存します。

一般的な使用ケース

  • テキスト生成:

    • 大きなテキストファイルの要約:
      ollama run llama3.2 "以下のテキストを要約してください:" < long-document.txt
      
    • コンテンツ生成:
      ollama run llama3.2 "AIを医療に活用する利点についての短い記事を書いてください。" > article.txt
      
    • 特定の質問への回答:
      ollama run llama3.2 "AIの最新トレンドと、それが医療に与える影響について教えてください。"
      

    .

  • データ処理と分析:

    • テキストをポジティブ、ネガティブ、またはニュートラルな感情に分類:
      ollama run llama3.2 "この顧客レビューの感情を分析してください: '製品は素晴らしいですが、配送が遅かったです。'"
      
    • 事前に定義されたカテゴリにテキストを分類: 類似したコマンドを使用して、事前に定義された基準に基づいてテキストを分類またはカテゴリ化できます。

Python と Ollama の併用

  • Ollama Python ライブラリのインストール:
    pip install ollama
    
  • Python を使用したテキスト生成:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='量子ビットとは何ですか?')
    print(response['response'])
    
    このコードスニペットは、指定されたモデルとプロンプトを使用してテキストを生成します。

有用なリンク