Cheatsheet

llama.cppルータモデルをすべてアンロードする

llama.cppルータモデルをすべてアンロードする

llama-serverを停止せずにVRAMを解放する方法

llama.cpp ラーターモード は、llama-server における数年間で最も有用な変更の一つです。これにより、ローカルLLM運用者は、Ollamaで期待されるようなモデル管理体験に近いものをようやく手に入れることができました。同時に、llama-server を使い続ける価値がある生のパフォーマンスと低レベルの制御も維持されています。

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

エージェント型LLMのチューニングに関する参照資料

このページは、エージェント型LLM推論チューニングの実用的なリファレンス(temperature、top_p、top_k、ペナルティ、およびマルチステップやツール多用なワークフローにおけるそれらの相互作用)です。

より広範なLLMパフォーマンスエンジニアリングハブと併せて参照し、明確なLLMホスティングとサービングの概要と組み合わせることで、モデルがリソース不足に陥った際にはスループットとスケジューリングが依然として支配的ですが、不安定なサンプリングはGPUが処理を終える前にリトライと出力トークンを消費してしまうことがわかります。

このページでは以下をまとめます:

2026年版の安全なOpenClaw運用に関するNemoClaw実用的ガイド

2026年版の安全なOpenClaw運用に関するNemoClaw実用的ガイド

NemoClawでOpenClawを安全に実行

大多数のAIエージェントスタックは、セキュリティをデモ後の修正事項として扱っています。 NemoClawは対極の前提から始まり、隔離、ポリシー、ルーティングを初期設定(Day-Zero defaults)として採用しています。

Bash、CMD、PowerShell、macOS における「任意のキーを押す」によるスクリプト一時停止

Bash、CMD、PowerShell、macOS における「任意のキーを押す」によるスクリプト一時停止

Bash、CMD、PowerShell、macOS に対応する任意キーでの一時停止機能。

バッチファイルやシェルスクリプトでは、ダブルクリックしたウィンドウやインストーラーのログが見えるように、短時間の待機が必要な場合があります。Windows CMD には専用の**pauseコマンドがあります。Unix シェルではread**を使用します。

SGLang クイックスタート:OpenAI API を介して LLM のインストール、設定、およびサービス提供

SGLang クイックスタート:OpenAI API を介して LLM のインストール、設定、およびサービス提供

SGLang を使ってオープンモデルを高速に提供。

SGLang は、大規模言語モデルおよびマルチモーダルモデル向けの高パフォーマンスなサービングフレームワークであり、単一の GPU から分散クラスターに至るまで、低レイテンシかつ高スループットの推論を提供するために設計されています。

llama.swap モデル切り換え器の OpenAI 互換ローカル LLM 向けクイックスタート

llama.swap モデル切り換え器の OpenAI 互換ローカル LLM 向けクイックスタート

クライアントを変更せずにホットスワップ可能なローカル LLM。

まもなく vLLM や llama.cpp など、それぞれのスタックが独自のポートで稼働している状態に陥ります。下流のシステムはすべて**/v1というベース URL を求めるため、ポート、プロファイル、ワンオフスクリプトを頻繁に変更することになります。llama-swapは、これらのスタックの前に配置される/v1**プロキシです。

LocalAI QuickStart: ローカルで OpenAI 互換 LLM を実行する

LocalAI QuickStart: ローカルで OpenAI 互換 LLM を実行する

数分で LocalAI を使用して、OpenAI 互換 API をセルフホストできます。

LocalAI は、ご自身のハードウェア(ノート PC、ワークステーション、オンプレミスサーバー)上で AI ワークロードを実行できるように設計された、自己完結型でローカルファーストの推論サーバーです。これは、OpenAI API と互換性のある「差し替え可能な」APIとして動作します。

CLIとサーバーによるllama.cppクイックスタート

CLIとサーバーによるllama.cppクイックスタート

「OpenCode」のインストール、設定、および使用方法

ローカル推論には、llama.cpp を使い続けています。Ollama や他のツールが抽象化している部分を自分で制御できるためであり、単に「動く」だけでなく、GGUF モデルを llama-cli で対話的に実行したり、llama-serverOpenAI 互換の HTTP API を公開したりするのが簡単だからです。

OpenCodeクイックスタート:ターミナルAIコーディングエージェントのインストール、設定、および使用方法

OpenCodeクイックスタート:ターミナルAIコーディングエージェントのインストール、設定、および使用方法

OpenCode のインストール、設定、および使用方法

OpenCode は、ターミナル(TUI + CLI)で実行できるオープンソースの AI コーディングエージェントです。オプションとしてデスクトップおよび IDE 用のインターフェースも提供されます。こちらが OpenCode クイックスタート です:インストール、動作確認、モデル/プロバイダーの接続、および実際のワークフロー(CLI + API)の実行について解説します。

Pythonでのブラウザーオートメーション: Playwright、Seleniumおよびその他

Pythonでのブラウザーオートメーション: Playwright、Seleniumおよびその他

PythonによるブラウザオートメーションとE2Eテストの比較。

Pythonにおけるブラウザーオートメーションスタックの選択は、速度、安定性、メンテナンスに影響を与えます。
この概要では、
Playwright vs Selenium vs Puppeteer vs LambdaTest vs ZenRows vs Gauge
を比較します。Pythonに焦点を当てながら、Node.jsや他の言語がどの場面で役立つかについても記載しています。