Hermes エージェントメモリシステム:永続的AIメモリが実際にどのように機能するか
メモリは、ツールとパートナーの違いを決定づける。
あなたはご存知の通り、AIエージェントとのチャットを開き、プロジェクトを説明し、好みを共有し、作業を進めて、タブを閉じます。翌週に戻ってみると、まるで他人と話をしているかのようです。すべての文脈が消え、すべての好みが忘れられ、プロジェクトは最初から再説明する必要があります。
メモリは、ツールとパートナーの違いを決定づける。
あなたはご存知の通り、AIエージェントとのチャットを開き、プロジェクトを説明し、好みを共有し、作業を進めて、タブを閉じます。翌週に戻ってみると、まるで他人と話をしているかのようです。すべての文脈が消え、すべての好みが忘れられ、プロジェクトは最初から再説明する必要があります。
OpenClawは急速に台頭し、その後、さらに急速に姿を消した。
OpenClawは製品として失敗したわけではありません。単に「燃料」を失っただけです。
リスタートなしでLLMの提供と入れ替えを実現します。
長らく llama.cpp には顕著な制限がありました。1つのプロセスで1つのモデルしか提供できず、モデルの切り替えには再起動が必要だったのです。
実務で生き抜く Claude Skills を構築する
多くのチームは、Claude Skills を 2 つの方法のいずれかで誤用しています。SKILL.md を何でもありの dumping ground(ごみ箱)にするか、巨大なコピペプロンプトから卒業できないかのどちらかです。
本格的なワークロード向けのプロファイルファーストなHermes設定
公式にはHermes Agentとして文書化されているHermes AIアシスタントは、単なるチャットラッパーとして位置づけられてはいません。
保持すべきスキルと、スキップしてよいスキル
OpenClawには2つの拡張ストーリーがあり、それらは混同されやすいものです。
プラグインはランタイムを拡張します。スキルはエージェントの振る舞いを拡張します。
まずはプラグイン。スキルの名称を簡潔に。
この記事は、チャネル、モデルプロバイダー、ツール、音声、メモリ、メディア、Web 検索、その他ランタイムの表面機能などを追加するネイティブゲートウェイパッケージであるOpenClaw プラグインについて解説します。
実際のOpenClawシステムはどのように構成されているのか
OpenClawのデモではシンプルに見えます。 しかし、本番環境では、それは一つのシステムへと変貌します。
Claudeのサブスクリプションはエージェントの稼働に使用されなくなりました
エージェント実験の波を後押ししていた静かな抜け穴は、今、閉じられました。
ローカル LLM を活用したセルフホスティング AI 検索
Vane は、「出典付き AI 検索」領域において、より実用的な選択肢の一つです。これは、リアルタイムのウェブ取得とローカルまたはクラウド上の LLM(大規模言語モデル)を組み合わせた、セルフホスティング可能な回答エンジンであり、スタック全体をユーザーの管理下に置くことができます。
ローカルモデルバックエンドに対応したエージェンティックコーディング
Claude Codeは、マーケティングが上手な自動補完ツールではありません。これはエージェント型コーディングツールです。コードベースを読み取り、ファイルを編集し、コマンドを実行し、開発ツールと統合します。
開発者向けHermesエージェントのインストールとクイックスタート
Hermes Agent は、ローカルマシンや低コストのVPS上で稼働する、モデル非依存の自己ホスト型AIアシスタントです。ターミナルおよびメッセージングインターフェースを通じて動作し、反復的なタスクを再利用可能なスキルに変換することで、時間とともに性能を向上させます。
TGI をインストールし、迅速にデプロイ、さらに高速にデバッグ。
Text Generation Inference (TGI) は、非常に特有の雰囲気を持っています。 推論の分野で最も新しい子供ではありませんが、すでに本番環境でのトラブルを学び、その教訓をデフォルト設定に焼き付けているのが TGI です。
16 GB VRAMにおけるllama.cppのトークン処理速度(表)。
ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。
llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。
VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU
この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。
| モデル | サイズ | 19K VRAM | 19K GPU/CPU | 19K T/s | 32K VRAM | 32K ロード | 32K T/s | 64K VRAM | 64K ロード | 64K T/s |
|---|---|---|---|---|---|---|---|---|---|---|
| Qwen3.6-35B-A3B-UD-IQ3_XXS | 13.2 | 13.8GB | 96%/100% | 147.5 | 14.0GB | 96%/101% | 149.1 | 14.7GB | 96%/101% | 145.8 |
| Qwen3.6-35B-A3B-UD-IQ4_XS | 17.7 | 14.3GB | 62%/266% | 95.0 | 14.9GB | 58%/279% | 92.3 | 14.9GB | 57%/293% | 86.4 |
| Qwen3.5-35B-A3B-UD-IQ3_S | 13.6 | 14.3GB | 93%/100% | 136.4 | 14.6GB | 93%/100% | 138.5 | 14.9GB | 88%/115% | 136.8 |
| Qwen3.5-27B-IQ3_XXS-bartowsky | 11.3 | 12.8 | 98/100 | 44.9 | 13.5 | 98/100 | 44.9 | 14.5 | 45/415 | 23.6 |
| Qwen3.5-27B-UD-IQ3_XXS | 11.5 | 12.9 | 98/100 | 45.3 | 13.7 | 98/100 | 45.1 | 14.7 | 45/410 | 22.7 |
| Qwen3.5-27B-IQ4_XS.gguf | 15.0 | 14.6 | 49/406 | 20.5 | 14.7 | 37/465 | 17.4 | 14.7 | 23/533 | 13.3 |
| Qwen3.5-122B-A10B-UD-IQ3_XXS | 44.7 | 14.7 | 30/470 | 22.3 | 14.7 | 30/480 | 21.8 | 14.7 | 28/490 | 21.5 |
| Qwen3.5-122B-A10B-UD-IQ3_S | 46.5 | 14.7 | 25/516 | 19.4 | 14.7 | 24/516 | 19.5 | 14.7 | 24/516 | 19.6 |
| Mistral-Small-4-119B UD-IQ3_XXS | 42.8 | 14.8 | 28/585 | 30.4 | 14.7 | 27/574 | 28.5 | 14.9 | 20/590 | 31.5 |
| Qwen3-Coder-Next-UD-IQ4_XS | 38.4 | 14.6 | 32/460 | 41.1 | 14.7 | 29/440 | 41.3 | 14.8 | 32/460 | 38.3 |
| Nemotron Super 120b IQ3_XXS | 56.2 | 15.0 | 26/517 | 17.5 | 14.6 | 26/531 | 17.4 | 14.6 | 26/535 | 17.6 |
| gemma-4-26B-A4B-it-UD-IQ4_XS | 13.4 | 14.7 | 95/100 | 121.7 | 14.9 | 95/115 | 114.9 | 14.9 | 75/190 | 96.1 |
| gemma-4-31B-it-UD-IQ3_XXS | 11.8 | 14.8 | 68/287 | 29.2 | 14.8 | 41/480 | 18.4 | 14.8 | 18/634 | 8.1 |
| GLM-4.7-Flash-IQ4_XS | 16.3 | 15.0 | 66/240 | 91.8 | 14.9 | 62/262 | 86.1 | 14.9 | 53/313 | 72.5 |
| GLM-4.7-Flash-REAP-23B IQ4_XS | 12.6 | 13.7 | 92/100 | 122.0 | 14.4 | 95/102 | 123.2 | 14.9 | 71/196 | 97.1 |
19K、32K、64Kはコンテキストのサイズを示します。
オーストラリアではRTX 5090は供給不足であり、価格が高騰しています。
オーストラリアにはRTX 5090の在庫があります。 ただし、ごくわずかです。 もし見つけたとしても、現実感の欠けた、莫大なプレミアム価格を支払わなければなりません。
公開ポートを使用しないリモート Ollama アクセス
Ollama は、ローカルデーモンとして扱われるときに最も快適に動作します。CLI とアプリケーションがループバック HTTP API と通信し、残りのネットワークにはその存在が知られない状態です。