Cheatsheet

llama.cpp ラーターモードは、llama-server における数年間で最も有用な変更の一つです。これにより、ローカルLLM運用者は、Ollamaで期待されるようなモデル管理体験に近いものをようやく手に入れることができました。同時に、llama-server を使い続ける価値がある生のパフォーマンスと低レベルの制御も維持されています。

このページは、エージェント型LLM推論チューニングの実用的なリファレンス（temperature、top_p、top_k、ペナルティ、およびマルチステップやツール多用なワークフローにおけるそれらの相互作用）です。

より広範なLLMパフォーマンスエンジニアリングハブと併せて参照し、明確なLLMホスティングとサービングの概要と組み合わせることで、モデルがリソース不足に陥った際にはスループットとスケジューリングが依然として支配的ですが、不安定なサンプリングはGPUが処理を終える前にリトライと出力トークンを消費してしまうことがわかります。

このページでは以下をまとめます：

Hermes Agent CLI チートシート — コマンド、フラグ、およびスラッシュショートカット

Nous Research の Hermes Agent は、モデル非依存でツールを使用できるアシスタントであり、ローカルまたは VPS で実行できます。

大多数のAIエージェントスタックは、セキュリティをデモ後の修正事項として扱っています。 NemoClawは対極の前提から始まり、隔離、ポリシー、ルーティングを初期設定（Day-Zero defaults）として採用しています。

Llama-Server ルーターモード - リスタートなしでの動的モデル切り替え

長らく llama.cpp には顕著な制限がありました。1つのプロセスで1つのモデルしか提供できず、モデルの切り替えには再起動が必要だったのです。

Bash、CMD、PowerShell、macOS における「任意のキーを押す」によるスクリプト一時停止

バッチファイルやシェルスクリプトでは、ダブルクリックしたウィンドウやインストーラーのログが見えるように、短時間の待機が必要な場合があります。Windows CMD には専用の**pauseコマンドがあります。Unix シェルではread**を使用します。

SGLang クイックスタート：OpenAI API を介して LLM のインストール、設定、およびサービス提供

SGLang は、大規模言語モデルおよびマルチモーダルモデル向けの高パフォーマンスなサービングフレームワークであり、単一の GPU から分散クラスターに至るまで、低レイテンシかつ高スループットの推論を提供するために設計されています。

llama.swap モデル切り換え器の OpenAI 互換ローカル LLM 向けクイックスタート

まもなく vLLM や llama.cpp など、それぞれのスタックが独自のポートで稼働している状態に陥ります。下流のシステムはすべて**/v1というベース URL を求めるため、ポート、プロファイル、ワンオフスクリプトを頻繁に変更することになります。llama-swapは、これらのスタックの前に配置される/v1**プロキシです。

OpenHands コーディングアシスタントのクイックスタート：インストール、CLI フラグ、例

OpenHands は、AI 駆動のソフトウェア開発エージェントのためのオープンソースでモデル非依存のプラットフォームです。単なる自動補完ツールではなく、エージェントがコーディングパートナーのように振る舞うことを可能にします。

LocalAI QuickStart: ローカルで OpenAI 互換 LLM を実行する

LocalAI は、ご自身のハードウェア（ノート PC、ワークステーション、オンプレミスサーバー）上で AI ワークロードを実行できるように設計された、自己完結型でローカルファーストの推論サーバーです。これは、OpenAI API と互換性のある「差し替え可能な」APIとして動作します。

ローカル推論には、llama.cpp を使い続けています。Ollama や他のツールが抽象化している部分を自分で制御できるためであり、単に「動く」だけでなく、GGUF モデルを llama-cli で対話的に実行したり、llama-server で OpenAI 互換の HTTP API を公開したりするのが簡単だからです。

OpenCodeクイックスタート：ターミナルAIコーディングエージェントのインストール、設定、および使用方法

OpenCode は、ターミナル（TUI + CLI）で実行できるオープンソースの AI コーディングエージェントです。オプションとしてデスクトップおよび IDE 用のインターフェースも提供されます。こちらが OpenCode クイックスタートです：インストール、動作確認、モデル/プロバイダーの接続、および実際のワークフロー（CLI + API）の実行について解説します。

Go によるブラウザーオートメーション: Selenium、chromedp、Playwright、ZenRows

正しいブラウザーオートメーションスタックとGoでのウェブスクレイピングの選択は、速度、メンテナンス、コードが実行される場所に影響を与えます。

Ubuntu 24 で標準アイコンを使用してデスクトップランチャーを構成する方法

Ubuntu 24のデスクトップランチャー（およびほとんどのLinuxデスクトップ）は、.desktopファイルによって定義されます。これは、アプリケーションやリンクを記述する小さなテキストベースの設定ファイルです。

Pythonでのブラウザーオートメーション: Playwright、Seleniumおよびその他

Pythonにおけるブラウザーオートメーションスタックの選択は、速度、安定性、メンテナンスに影響を与えます。
この概要では、
Playwright vs Selenium vs Puppeteer vs LambdaTest vs ZenRows vs Gauge
を比較します。Pythonに焦点を当てながら、Node.jsや他の言語がどの場面で役立つかについても記載しています。

現在、ターミナルユーザーインターフェース（TUI）を構築するための強力な2つの選択肢は、BubbleTea (Go) および Ratatui (Rust) です。
1つは、Elmスタイルの枠組みを提供する意見を表明したアプローチであり、もう1つは柔軟な即時モードのライブラリです。

Cheatsheet

llama.cppルータモデルをすべてアンロードする

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

Hermes Agent CLI チートシート — コマンド、フラグ、およびスラッシュショートカット

2026年版の安全なOpenClaw運用に関するNemoClaw実用的ガイド

Llama-Server ルーターモード - リスタートなしでの動的モデル切り替え

Bash、CMD、PowerShell、macOS における「任意のキーを押す」によるスクリプト一時停止

SGLang クイックスタート：OpenAI API を介して LLM のインストール、設定、およびサービス提供

llama.swap モデル切り換え器の OpenAI 互換ローカル LLM 向けクイックスタート

OpenHands コーディングアシスタントのクイックスタート：インストール、CLI フラグ、例

LocalAI QuickStart: ローカルで OpenAI 互換 LLM を実行する

CLIとサーバーによるllama.cppクイックスタート

OpenCodeクイックスタート：ターミナルAIコーディングエージェントのインストール、設定、および使用方法

Go によるブラウザーオートメーション: Selenium、chromedp、Playwright、ZenRows

Ubuntu 24 で標準アイコンを使用してデスクトップランチャーを構成する方法

Pythonでのブラウザーオートメーション: Playwright、Seleniumおよびその他

ターミナルUI：BubbleTea（Go）vs Ratatui（Rust）