Self-Hosting

Linux サービスにおける Podman Quadlet と Docker Compose の比較

Docker ComposeとPodman Quadletは重複する問題を解決しますが、異なる設計理念から来ています。どちらを選ぶかは、アプリケーションスタックとして考えるか、Linuxサービスとして考えるかに依存します。

Linux サーバー上の Docker Compose は、ブート時に起動し、シャットダウン時にクリーンに停止し、手動介入なしで再起動に耐えられるべきです。

UbuntuにDockerをインストールする方法：APT、Snap、Rootless — 2026年版完全ガイド

Ubuntu に Docker をインストールするのは本来シンプルであるはずですが、実際には複数の「Docker 関連」の選択肢が同じコマンド名を巡って競合しており、それぞれ異なるパッケージ構成、アップグレード動作、セキュリティへの影響を持っています。

Ubuntu APTのトラブルシューティング：壊れたパッケージ、ホールド、GPGエラーの修正

長期間稼働している Ubuntu マシンでは、APT のエラーはよく発生します。これらは通常、リリースアップグレード、サードパーティリポジトリの変更、PPA の削除、手動インストールされた .deb ファイル、または中断されたパッケージインストールの後に現れます。

llama.cpp ラーターモードは、llama-server における数年間で最も有用な変更の一つです。これにより、ローカルLLM運用者は、Ollamaで期待されるようなモデル管理体験に近いものをようやく手に入れることができました。同時に、llama-server を使い続ける価値がある生のパフォーマンスと低レベルの制御も維持されています。

このページは、エージェント型LLM推論チューニングの実用的なリファレンス（temperature、top_p、top_k、ペナルティ、およびマルチステップやツール多用なワークフローにおけるそれらの相互作用）です。

より広範なLLMパフォーマンスエンジニアリングハブと併せて参照し、明確なLLMホスティングとサービングの概要と組み合わせることで、モデルがリソース不足に陥った際にはスループットとスケジューリングが依然として支配的ですが、不安定なサンプリングはGPUが処理を終える前にリトライと出力トークンを消費してしまうことがわかります。

このページでは以下をまとめます：

スマートフォンからテキストでヘルメスエージェントとチャットすることはすでに可能でしょう。今、あなたはエージェントと直接会話し、音声で返信を受け取りたいと考えています。これは通常、正しい選択です。特にHermesを永続的な自己ホスト型アシスタントとして使用している場合には顕著です。小さな画面で長いプロンプトをタイプするのは、時間がかかり、誤りも生じやすいものです。

大多数のAIエージェントスタックは、セキュリティをデモ後の修正事項として扱っています。 NemoClawは対極の前提から始まり、隔離、ポリシー、ルーティングを初期設定（Day-Zero defaults）として採用しています。

2026年のナレッジマネジメント：PKMツール、自己ホスト型Wiki、およびデジタルシステム

パーソナル・ナレッジ・マネジメント（PKM）には、Obsidian、Logseq、DokuWiki、Zettelkasten、PARAといった選択肢がありますが、適切なツールは、ローカル環境でのノートグラフ、セルフホスト型ウィキ、アウトライナー駆動型のワークフローのいずれを優先するかによって異なります。

エージェント実験の波を後押ししていた静かな抜け穴は、今、閉じられました。

Vane（Perplexica 2.0）Ollama と llama.cpp を使用したクイックスタート

Vane は、「出典付き AI 検索」領域において、より実用的な選択肢の一つです。これは、リアルタイムのウェブ取得とローカルまたはクラウド上の LLM（大規模言語モデル）を組み合わせた、セルフホスティング可能な回答エンジンであり、スタック全体をユーザーの管理下に置くことができます。

TGI（Text Generation Inference）のインストール、設定、トラブルシューティング

Text Generation Inference (TGI) は、非常に特有の雰囲気を持っています。推論の分野で最も新しい子供ではありませんが、すでに本番環境でのトラブルを学び、その教訓をデフォルト設定に焼き付けているのが TGI です。

llama.cppによる16 GB VRAM LLMベンチマーク（速度とコンテキスト）

ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。

llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。

VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU

この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。

LLMの速度比較表（トークン/秒とVRAM）

モデル	サイズ	19K VRAM	19K GPU/CPU	19K T/s	32K VRAM	32K ロード	32K T/s	64K VRAM	64K ロード	64K T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS	13.2	13.8GB	96%/100%	147.5	14.0GB	96%/101%	149.1	14.7GB	96%/101%	145.8
Qwen3.6-35B-A3B-UD-IQ4_XS	17.7	14.3GB	62%/266%	95.0	14.9GB	58%/279%	92.3	14.9GB	57%/293%	86.4
Qwen3.5-35B-A3B-UD-IQ3_S	13.6	14.3GB	93%/100%	136.4	14.6GB	93%/100%	138.5	14.9GB	88%/115%	136.8
Qwen3.5-27B-IQ3_XXS-bartowsky	11.3	12.8	98/100	44.9	13.5	98/100	44.9	14.5	45/415	23.6
Qwen3.5-27B-UD-IQ3_XXS	11.5	12.9	98/100	45.3	13.7	98/100	45.1	14.7	45/410	22.7
Qwen3.5-27B-IQ4_XS.gguf	15.0	14.6	49/406	20.5	14.7	37/465	17.4	14.7	23/533	13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS	44.7	14.7	30/470	22.3	14.7	30/480	21.8	14.7	28/490	21.5
Qwen3.5-122B-A10B-UD-IQ3_S	46.5	14.7	25/516	19.4	14.7	24/516	19.5	14.7	24/516	19.6
Mistral-Small-4-119B UD-IQ3_XXS	42.8	14.8	28/585	30.4	14.7	27/574	28.5	14.9	20/590	31.5
Qwen3-Coder-Next-UD-IQ4_XS	38.4	14.6	32/460	41.1	14.7	29/440	41.3	14.8	32/460	38.3
Nemotron Super 120b IQ3_XXS	56.2	15.0	26/517	17.5	14.6	26/531	17.4	14.6	26/535	17.6
gemma-4-26B-A4B-it-UD-IQ4_XS	13.4	14.7	95/100	121.7	14.9	95/115	114.9	14.9	75/190	96.1
gemma-4-31B-it-UD-IQ3_XXS	11.8	14.8	68/287	29.2	14.8	41/480	18.4	14.8	18/634	8.1
GLM-4.7-Flash-IQ4_XS	16.3	15.0	66/240	91.8	14.9	62/262	86.1	14.9	53/313	72.5
GLM-4.7-Flash-REAP-23B IQ4_XS	12.6	13.7	92/100	122.0	14.4	95/102	123.2	14.9	71/196	97.1

19K、32K、64Kはコンテキストのサイズを示します。

オーストラリアにおける RTX 5090 の 2026 年 3 月の価格と在庫の実態

オーストラリアにはRTX 5090の在庫があります。ただし、ごくわずかです。もし見つけたとしても、現実感の欠けた、莫大なプレミアム価格を支払わなければなりません。

Tailscale または WireGuard を介した Ollama のリモートアクセス（パブリックポートなし）

Ollama は、ローカルデーモンとして扱われるときに最も快適に動作します。CLI とアプリケーションがループバック HTTP API と通信し、残りのネットワークにはその存在が知られない状態です。

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

Ollama は、メタル（物理マシン）上で非常に良好に動作します。それをサービスとして扱うと、さらに興味深くなります。安定したエンドポイント、固定されたバージョン、永続的なストレージ、そして GPU が利用可能か不可かの明確な状態が確保されます。

Self-Hosting

Linux サービスにおける Podman Quadlet と Docker Compose の比較

systemdでDocker ComposeをLinuxサービスとして実行する

UbuntuにDockerをインストールする方法：APT、Snap、Rootless — 2026年版完全ガイド

Ubuntu APTのトラブルシューティング：壊れたパッケージ、ホールド、GPGエラーの修正

llama.cppルータモデルをすべてアンロードする

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

スマートフォンからのヘルメス音声コントロール

2026年版の安全なOpenClaw運用に関するNemoClaw実用的ガイド

2026年のナレッジマネジメント：PKMツール、自己ホスト型Wiki、およびデジタルシステム

Claude、OpenClaw、およびエージェントのフラット価格付けの終焉

Vane（Perplexica 2.0）Ollama と llama.cpp を使用したクイックスタート

TGI（Text Generation Inference）のインストール、設定、トラブルシューティング

llama.cppによる16 GB VRAM LLMベンチマーク（速度とコンテキスト）

LLMの速度比較表（トークン/秒とVRAM）

オーストラリアにおける RTX 5090 の 2026 年 3 月の価格と在庫の実態

Tailscale または WireGuard を介した Ollama のリモートアクセス（パブリックポートなし）

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama