AI - Page 2 - Rost Glukhov | 個人サイトとテクニカルブログ

エージェントメモリプロバイダー比較 — Honcho、Mem0、Hindsight、それにさらに5つ

モダンなアシスタントは、タブを閉じると、コンテキストウィンドウを超えて何らかの状態が保持されない限り、すべての記憶を失います。エージェントメモリプロバイダーは、セッション間で事実や要約を保持するサービスまたはライブラリであり、フレームワーク自体は軽量に保ちつつメモリをスケーリングできるように、しばしばプラグインとして接続されます。

このガイドでは、Hermes Agentの外部メモリプラグインとして提供される8つのバックエンド（Honcho、OpenViking、Mem0、Hindsight、Holographic、RetainDB、ByteRover、Supermemory）を比較し、それらがより広範な**AIシステムのスタックにどのように組み込まれるかを説明します。これらのベンダーは、コミュニティまたは公式の統合を通じて、OpenClawや他のエージェントツールでも利用されています。AI Systems Memory hub**では、この記事をCogneeや関連ガイドと並べてリストしています。

Hermes固有のバウンデッドコアメモリ（MEMORY.mdおよびUSER.md）、フリーズ動作、トリガーについては、**Hermes Agent Memory System**を参照してください。Hermesの8つのネイティブメモリプロバイダーが、GitHubスター数、OpenRouterトークンランキング、エコシステム規模の比較など、OpenClawに対する採用優位性をどのように高めているかの背景については、OpenClaw vs Hermes Agent: Stars, Downloads & Usage 2026を参照してください。

Hermes エージェントメモリシステム：永続的AIメモリが実際にどのように機能するか

あなたはご存知の通り、AIエージェントとのチャットを開き、プロジェクトを説明し、好みを共有し、作業を進めて、タブを閉じます。翌週に戻ってみると、まるで他人と話をしているかのようです。すべての文脈が消え、すべての好みが忘れられ、プロジェクトは最初から再説明する必要があります。

OpenClawは製品として失敗したわけではありません。単に「燃料」を失っただけです。

Llama-Server ルーターモード - リスタートなしでの動的モデル切り替え

長らく llama.cpp には顕著な制限がありました。1つのプロセスで1つのモデルしか提供できず、モデルの切り替えには再起動が必要だったのです。

開発者向け Claude Skills と SKILL.md：VS Code、JetBrains、Cursor

多くのチームは、Claude Skills を 2 つの方法のいずれかで誤用しています。SKILL.md を何でもありの dumping ground（ごみ箱）にするか、巨大なコピペプロンプトから卒業できないかのどちらかです。

公式にはHermes Agentとして文書化されているHermes AIアシスタントは、単なるチャットラッパーとして位置づけられてはいません。

OpenClawには2つの拡張ストーリーがあり、それらは混同されやすいものです。

プラグインはランタイムを拡張します。スキルはエージェントの振る舞いを拡張します。

この記事は、チャネル、モデルプロバイダー、ツール、音声、メモリ、メディア、Web 検索、その他ランタイムの表面機能などを追加するネイティブゲートウェイパッケージであるOpenClaw プラグインについて解説します。

OpenClawのデモではシンプルに見えます。しかし、本番環境では、それは一つのシステムへと変貌します。

エージェント実験の波を後押ししていた静かな抜け穴は、今、閉じられました。

Vane（Perplexica 2.0）Ollama と llama.cpp を使用したクイックスタート

Vane は、「出典付き AI 検索」領域において、より実用的な選択肢の一つです。これは、リアルタイムのウェブ取得とローカルまたはクラウド上の LLM（大規模言語モデル）を組み合わせた、セルフホスティング可能な回答エンジンであり、スタック全体をユーザーの管理下に置くことができます。

Ollama、llama.cpp用のClaude Codeのインストールと設定、および料金

Claude Codeは、マーケティングが上手な自動補完ツールではありません。これはエージェント型コーディングツールです。コードベースを読み取り、ファイルを編集し、コマンドを実行し、開発ツールと統合します。

Hermes AI アシスタント - インストール、設定、ワークフロー、およびトラブルシューティング

Hermes Agent は、ローカルマシンや低コストのVPS上で稼働する、モデル非依存の自己ホスト型AIアシスタントです。ターミナルおよびメッセージングインターフェースを通じて動作し、反復的なタスクを再利用可能なスキルに変換することで、時間とともに性能を向上させます。

TGI（Text Generation Inference）のインストール、設定、トラブルシューティング

Text Generation Inference (TGI) は、非常に特有の雰囲気を持っています。推論の分野で最も新しい子供ではありませんが、すでに本番環境でのトラブルを学び、その教訓をデフォルト設定に焼き付けているのが TGI です。

llama.cppによる16 GB VRAM LLMベンチマーク（速度とコンテキスト）

ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。

llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。

VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU

この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。

LLMの速度比較表（トークン/秒とVRAM）

モデル	サイズ	19K VRAM	19K GPU/CPU	19K T/s	32K VRAM	32K ロード	32K T/s	64K VRAM	64K ロード	64K T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS	13.2	13.8GB	96%/100%	147.5	14.0GB	96%/101%	149.1	14.7GB	96%/101%	145.8
Qwen3.6-35B-A3B-UD-IQ4_XS	17.7	14.3GB	62%/266%	95.0	14.9GB	58%/279%	92.3	14.9GB	57%/293%	86.4
Qwen3.5-35B-A3B-UD-IQ3_S	13.6	14.3GB	93%/100%	136.4	14.6GB	93%/100%	138.5	14.9GB	88%/115%	136.8
Qwen3.5-27B-IQ3_XXS-bartowsky	11.3	12.8	98/100	44.9	13.5	98/100	44.9	14.5	45/415	23.6
Qwen3.5-27B-UD-IQ3_XXS	11.5	12.9	98/100	45.3	13.7	98/100	45.1	14.7	45/410	22.7
Qwen3.5-27B-IQ4_XS.gguf	15.0	14.6	49/406	20.5	14.7	37/465	17.4	14.7	23/533	13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS	44.7	14.7	30/470	22.3	14.7	30/480	21.8	14.7	28/490	21.5
Qwen3.5-122B-A10B-UD-IQ3_S	46.5	14.7	25/516	19.4	14.7	24/516	19.5	14.7	24/516	19.6
Mistral-Small-4-119B UD-IQ3_XXS	42.8	14.8	28/585	30.4	14.7	27/574	28.5	14.9	20/590	31.5
Qwen3-Coder-Next-UD-IQ4_XS	38.4	14.6	32/460	41.1	14.7	29/440	41.3	14.8	32/460	38.3
Nemotron Super 120b IQ3_XXS	56.2	15.0	26/517	17.5	14.6	26/531	17.4	14.6	26/535	17.6
gemma-4-26B-A4B-it-UD-IQ4_XS	13.4	14.7	95/100	121.7	14.9	95/115	114.9	14.9	75/190	96.1
gemma-4-31B-it-UD-IQ3_XXS	11.8	14.8	68/287	29.2	14.8	41/480	18.4	14.8	18/634	8.1
GLM-4.7-Flash-IQ4_XS	16.3	15.0	66/240	91.8	14.9	62/262	86.1	14.9	53/313	72.5
GLM-4.7-Flash-REAP-23B IQ4_XS	12.6	13.7	92/100	122.0	14.4	95/102	123.2	14.9	71/196	97.1

19K、32K、64Kはコンテキストのサイズを示します。

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

Ollama は、メタル（物理マシン）上で非常に良好に動作します。それをサービスとして扱うと、さらに興味深くなります。安定したエンドポイント、固定されたバージョン、永続的なストレージ、そして GPU が利用可能か不可かの明確な状態が確保されます。

AI

エージェントメモリプロバイダー比較 — Honcho、Mem0、Hindsight、それにさらに5つ

Hermes エージェントメモリシステム：永続的AIメモリが実際にどのように機能するか

OpenClawの興亡 — 崩壊のタイムラインと真の背景

Llama-Server ルーターモード - リスタートなしでの動的モデル切り替え

開発者向け Claude Skills と SKILL.md：VS Code、JetBrains、Cursor

本番環境向けのHermes AIアシスタントスキル

OpenClawスキルエコシステムと実務向けの推奨スキル

OpenClaw プラグイン — エコシステムガイドと実用的な選択

プラグインとスキルを活用したOpenClawの本番環境セットアップパターン

Claude、OpenClaw、およびエージェントのフラット価格付けの終焉

Vane（Perplexica 2.0）Ollama と llama.cpp を使用したクイックスタート

Ollama、llama.cpp用のClaude Codeのインストールと設定、および料金

Hermes AI アシスタント - インストール、設定、ワークフロー、およびトラブルシューティング

TGI（Text Generation Inference）のインストール、設定、トラブルシューティング

llama.cppによる16 GB VRAM LLMベンチマーク（速度とコンテキスト）

LLMの速度比較表（トークン/秒とVRAM）

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama