本番環境におけるアプリケーションアーキテクチャ:統合パターン、コード設計、およびデータアクセス
統合、コード構造、データアクセスのパターン。
多くのアプリアーキテクチャのアドバイスは、適用するには抽象的すぎるか、スケールするには狭すぎるかのどちらかです。 ここでは、統合、コード構造、データアクセスにわたる本番環境システム向けの実践的なトレードオフを紹介します。
統合、コード構造、データアクセスのパターン。
多くのアプリアーキテクチャのアドバイスは、適用するには抽象的すぎるか、スケールするには狭すぎるかのどちらかです。 ここでは、統合、コード構造、データアクセスにわたる本番環境システム向けの実践的なトレードオフを紹介します。
Claudeのサブスクリプションはエージェントの稼働に使用されなくなりました
エージェント実験の波を後押ししていた静かな抜け穴は、今、閉じられました。
ローカル LLM を活用したセルフホスティング AI 検索
Vane は、「出典付き AI 検索」領域において、より実用的な選択肢の一つです。これは、リアルタイムのウェブ取得とローカルまたはクラウド上の LLM(大規模言語モデル)を組み合わせた、セルフホスティング可能な回答エンジンであり、スタック全体をユーザーの管理下に置くことができます。
ローカルモデルバックエンドに対応したエージェンティックコーディング
Claude Codeは、マーケティングが上手な自動補完ツールではありません。これはエージェント型コーディングツールです。コードベースを読み取り、ファイルを編集し、コマンドを実行し、開発ツールと統合します。
開発者向け Hermes エージェントのインストールとクイックスタート
Hermes Agent(ヘルメス エージェント)は、ローカルマシンまたは低コストのVPSで動作する、モデル非依存の自己ホスト型AIアシスタントです。ターミナルおよびメッセージングインターフェースを通じて動作し、繰り返し行うタスクを再利用可能なスキルに変換することで、時間とともに性能を向上させていきます。
TGI をインストールし、迅速にデプロイ、さらに高速にデバッグ。
Text Generation Inference (TGI) は、非常に特有の雰囲気を持っています。 推論の分野で最も新しい子供ではありませんが、すでに本番環境でのトラブルを学び、その教訓をデフォルト設定に焼き付けているのが TGI です。
llama.cpp の 16 GB VRAM におけるトークン生成速度(表)。
ここでは、VRAM 16GB の GPU で動作するいくつかの LLM の速度を比較し、セルフホスティングに最適なモデルを選定しています。
オーストラリアではRTX 5090は供給不足であり、価格が高騰しています。
オーストラリアにはRTX 5090の在庫があります。 ただし、ごくわずかです。 もし見つけたとしても、現実感の欠けた、莫大なプレミアム価格を支払わなければなりません。
公開ポートを使用しないリモート Ollama アクセス
Ollama は、ローカルデーモンとして扱われるときに最も快適に動作します。CLI とアプリケーションがループバック HTTP API と通信し、残りのネットワークにはその存在が知られない状態です。
トレースと連携可能なクエリ可能な JSON ログ。
ログは、システムが炎上している状況でも使用できるデバッグインターフェースです。 問題となるのは、プレーンテキストのログは古くなりやすいという点です。フィルタリング、集計、アラートが必要になった瞬間、文章をパースし始めることになります。
GPU および永続性を備えた Compose ファーストの Ollama サーバー。
Ollama は、メタル(物理マシン)上で非常に良好に動作します。それをサービスとして扱うと、さらに興味深くなります。安定したエンドポイント、固定されたバージョン、永続的なストレージ、そして GPU が利用可能か不可かの明確な状態が確保されます。
ストリーミング応答を破綻させずに HTTPS で Ollama を利用する。
リバースプロキシの背後で Ollama を実行することは、HTTPS、オプションのアクセス制御、予測可能なストリーミング動作を実現する最も簡単な方法です。
RAG エンベッディング - Python、Ollama、OpenAI API。
検索拡張生成 (RAG) を実装されている方に向けて、このセクションではテキスト埋め込み(text embeddings)について平易な言葉で解説します。埋め込みとは何か、検索や検索(リトリバル)にどのように組み込まれるか、そしてOllamaやllama.cppベースのサーバーが提供するOpenAI 互換の HTTP API を使用して、Pythonから 2 つの一般的なローカル環境を呼び出す方法を説明します。
Git ベースのデプロイ、CDN、クレジット、およびトレードオフ。
Netlify は、開発者フレンドリーな方法の一つであり、Hugo サイトやモダンな Web アプリを、本番環境グレードのワークフローで配信するためのプラットフォームです。プルリクエストごとのプレビュー URL、アトミックなデプロイ、グローバル CDN、およびオプションのサーバーレス機能やエッジ機能を備えています。
ステートフルストリーミング、チェックポイント、K8s、PyFlink、Go。
Apache Flink は、有界および無界のデータストリームに対して状態付きの計算を行うためのフレームワークです。
グラフ、Cypher、ベクトル、およびオペレーションの強化。
Neo4j は、関係そのものがデータであるときに選択するソリューションです。ドメインが白板に描かれた円と矢印の図のように見える場合、それをテーブルに無理やり押し込むのは苦痛を伴います。
システム、インフラ、AIエンジニアリングの新記事をお届けします。