Self-Hosting

llama.cppルータモデルをすべてアンロードする

llama.cppルータモデルをすべてアンロードする

llama-serverを停止せずにVRAMを解放する方法

llama.cpp ラーターモード は、llama-server における数年間で最も有用な変更の一つです。これにより、ローカルLLM運用者は、Ollamaで期待されるようなモデル管理体験に近いものをようやく手に入れることができました。同時に、llama-server を使い続ける価値がある生のパフォーマンスと低レベルの制御も維持されています。

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

エージェント型LLMのチューニングに関する参照資料

このページは、エージェント型LLM推論チューニングの実用的なリファレンス(temperature、top_p、top_k、ペナルティ、およびマルチステップやツール多用なワークフローにおけるそれらの相互作用)です。

より広範なLLMパフォーマンスエンジニアリングハブと併せて参照し、明確なLLMホスティングとサービングの概要と組み合わせることで、モデルがリソース不足に陥った際にはスループットとスケジューリングが依然として支配的ですが、不安定なサンプリングはGPUが処理を終える前にリトライと出力トークンを消費してしまうことがわかります。

このページでは以下をまとめます:

スマートフォンからのヘルメス音声コントロール

スマートフォンからのヘルメス音声コントロール

スマートフォンからHermesと会話する

スマートフォンからテキストでヘルメスエージェントとチャットすることはすでに可能でしょう。 今、あなたはエージェントと直接会話し、音声で返信を受け取りたいと考えています。 これは通常、正しい選択です。特にHermesを永続的な自己ホスト型アシスタントとして使用している場合には顕著です。 小さな画面で長いプロンプトをタイプするのは、時間がかかり、誤りも生じやすいものです。

2026年版の安全なOpenClaw運用に関するNemoClaw実用的ガイド

2026年版の安全なOpenClaw運用に関するNemoClaw実用的ガイド

NemoClawでOpenClawを安全に実行

大多数のAIエージェントスタックは、セキュリティをデモ後の修正事項として扱っています。 NemoClawは対極の前提から始まり、隔離、ポリシー、ルーティングを初期設定(Day-Zero defaults)として採用しています。

2026年版ナレッジマネジメント:PKMツール、自己ホスティング型Wiki、およびデジタルシステム

2026年版ナレッジマネジメント:PKMツール、自己ホスティング型Wiki、およびデジタルシステム

PKMツール、手法、およびセルフホスト型Wikiの比較

パーソナル・ナレッジ・マネジメント(PKM)には、Obsidian、Logseq、DokuWiki、Zettelkasten、PARAなどがあります。最適な選択は、ローカルなノートグラフ、セルフホスト型ウィキ、あるいはアウトライナー主導のワークフローのいずれを重視するかによって決まります。

Vane(Perplexica 2.0)Ollama と llama.cpp を使用したクイックスタート

Vane(Perplexica 2.0)Ollama と llama.cpp を使用したクイックスタート

ローカル LLM を活用したセルフホスティング AI 検索

Vane は、「出典付き AI 検索」領域において、より実用的な選択肢の一つです。これは、リアルタイムのウェブ取得とローカルまたはクラウド上の LLM(大規模言語モデル)を組み合わせた、セルフホスティング可能な回答エンジンであり、スタック全体をユーザーの管理下に置くことができます。

llama.cppによる16 GB VRAM LLMベンチマーク(速度とコンテキスト)

llama.cppによる16 GB VRAM LLMベンチマーク(速度とコンテキスト)

16 GB VRAMにおけるllama.cppのトークン処理速度(表)。

ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。

llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。

VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU

この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。

LLMの速度比較表(トークン/秒とVRAM)

モデル サイズ 19K VRAM 19K GPU/CPU 19K T/s 32K VRAM 32K ロード 32K T/s 64K VRAM 64K ロード 64K T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS 13.2 13.8GB 96%/100% 147.5 14.0GB 96%/101% 149.1 14.7GB 96%/101% 145.8
Qwen3.6-35B-A3B-UD-IQ4_XS 17.7 14.3GB 62%/266% 95.0 14.9GB 58%/279% 92.3 14.9GB 57%/293% 86.4
Qwen3.5-35B-A3B-UD-IQ3_S 13.6 14.3GB 93%/100% 136.4 14.6GB 93%/100% 138.5 14.9GB 88%/115% 136.8
Qwen3.5-27B-IQ3_XXS-bartowsky 11.3 12.8 98/100 44.9 13.5 98/100 44.9 14.5 45/415 23.6
Qwen3.5-27B-UD-IQ3_XXS 11.5 12.9 98/100 45.3 13.7 98/100 45.1 14.7 45/410 22.7
Qwen3.5-27B-IQ4_XS.gguf 15.0 14.6 49/406 20.5 14.7 37/465 17.4 14.7 23/533 13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS 44.7 14.7 30/470 22.3 14.7 30/480 21.8 14.7 28/490 21.5
Qwen3.5-122B-A10B-UD-IQ3_S 46.5 14.7 25/516 19.4 14.7 24/516 19.5 14.7 24/516 19.6
Mistral-Small-4-119B UD-IQ3_XXS 42.8 14.8 28/585 30.4 14.7 27/574 28.5 14.9 20/590 31.5
Qwen3-Coder-Next-UD-IQ4_XS 38.4 14.6 32/460 41.1 14.7 29/440 41.3 14.8 32/460 38.3
Nemotron Super 120b IQ3_XXS 56.2 15.0 26/517 17.5 14.6 26/531 17.4 14.6 26/535 17.6
gemma-4-26B-A4B-it-UD-IQ4_XS 13.4 14.7 95/100 121.7 14.9 95/115 114.9 14.9 75/190 96.1
gemma-4-31B-it-UD-IQ3_XXS 11.8 14.8 68/287 29.2 14.8 41/480 18.4 14.8 18/634 8.1
GLM-4.7-Flash-IQ4_XS 16.3 15.0 66/240 91.8 14.9 62/262 86.1 14.9 53/313 72.5
GLM-4.7-Flash-REAP-23B IQ4_XS 12.6 13.7 92/100 122.0 14.4 95/102 123.2 14.9 71/196 97.1

19K、32K、64Kはコンテキストのサイズを示します。

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

GPU および永続性を備えた Compose ファーストの Ollama サーバー。

Ollama は、メタル(物理マシン)上で非常に良好に動作します。それをサービスとして扱うと、さらに興味深くなります。安定したエンドポイント、固定されたバージョン、永続的なストレージ、そして GPU が利用可能か不可かの明確な状態が確保されます。

RAG と検索向けのテキスト埋め込み - Python、Ollama、OpenAI 互換 API

RAG と検索向けのテキスト埋め込み - Python、Ollama、OpenAI 互換 API

RAG エンベッディング - Python、Ollama、OpenAI API。

検索拡張生成 (RAG) を実装されている方に向けて、このセクションではテキスト埋め込み(text embeddings)について平易な言葉で解説します。埋め込みとは何か、検索や検索(リトリバル)にどのように組み込まれるか、そしてOllamallama.cppベースのサーバーが提供するOpenAI 互換の HTTP API を使用して、Pythonから 2 つの一般的なローカル環境を呼び出す方法を説明します。

SGLang クイックスタート:OpenAI API を介して LLM のインストール、設定、およびサービス提供

SGLang クイックスタート:OpenAI API を介して LLM のインストール、設定、およびサービス提供

SGLang を使ってオープンモデルを高速に提供。

SGLang は、大規模言語モデルおよびマルチモーダルモデル向けの高パフォーマンスなサービングフレームワークであり、単一の GPU から分散クラスターに至るまで、低レイテンシかつ高スループットの推論を提供するために設計されています。