Rost Glukhov | 개인 사이트 및 기술 블로그

채팅 플랫폼은 단순한 메시징 도구를 넘어 크게 진화했습니다. 현대 시스템에서는 자동화된 프로세스와 인간의 의사 결정 사이를 잇는 인터페이스로 작동합니다.

Discord 는 이를 하나의 시스템으로 대할 때 진정한 통합 표면이 됩니다: 시스템이 이벤트를 게시하고, 인간이 결정을 내리며, 자동화가 워크플로우를 이어가는 곳입니다.

Slack 통합은 하나의 HTTP 호출로 메시지를 게시할 수 있기 때문에 속임수처럼 보일 정도로 간단해 보입니다. 하지만 Slack 을 상호작용적이고 신뢰할 수 있는 시스템으로 만들려고 할 때 흥미로운 부분이 시작됩니다.

대부분의 애플리케이션 아키텍처 조언은 적용하기엔 너무 추상적이거나, 확장하기엔 너무 좁은 경향이 있습니다. 여기서는 통합, 코드 구조, 데이터 액세스에 걸쳐 프로덕션 시스템에 적용할 수 있는 실용적인 트레이드오프를 제시합니다.

에이전트 실험의 물결을 이끈 조용한 루트가 이제 막혔습니다.

Vane (Perplexica 2.0) Ollama 와 llama.cpp 를 이용한 빠른 시작

Vane 은 “인용된 AI 검색” 분야에서 더 실용적인 솔루션 중 하나입니다. 이는 실시간 웹 검색과 로컬 또는 클라우드 LLM 을 결합하면서도 전체 스택을 사용자의 통제 하에 두는 자체 호스팅형 답변 엔진입니다.

Claude Code의 Ollama 및 llama.cpp 설치 및 설정, 가격 정책

Claude Code는 마케팅만 뛰어난 자동 완성 도구가 아닙니다. 이것은 에이전트 기반 코딩 도구입니다. 코드베이스를 읽고, 파일을 편집하며, 명령을 실행하고, 개발 도구와 통합됩니다.

Hermes Agent은(는) 자체 호스팅(self-hosted) 방식이며 모델에 구애받지 않는 AI 어시스턴트로, 로컬 머신이나 저비용 VPS에서 실행됩니다. 터미널 및 메시징 인터페이스를 통해 작동하며, 반복적인 작업을 재사용 가능한 스킬(skill)로 변환함으로써 시간이 지남에 따라 성능이 향상됩니다.

Text Generation Inference(TGI) 는 매우 특유의 에너지를 지니고 있습니다. 추론 분야에서 가장 새로운 기술은 아니지만, 이미 프로덕션 환경에서 발생하는 문제를 잘 이해하고 있습니다.

llama.cpp를 이용한 16GB VRAM LLM 벤치마크 (속도 및 컨텍스트)

여기서는 VRAM이 16GB인 GPU에서 여러 LLM의 속도를 비교하고, 자체 호스팅에 가장 적합한 모델을 선정해 보겠습니다.

호주에 RTX 5090 재고가 있습니다. 마침내. 하지만 하나를 찾아도 현실과 동떨어진 프리미엄 가격을 지불해야 합니다.

Tailscale 또는 WireGuard를 통한 원격 Ollama 접근, 공개 포트 없음

Ollama 는 로컬 데몬 (daemon) 으로 취급될 때 가장 행복해합니다: CLI 와 애플리케이션이 루프백 HTTP API 와 통신하며, 나머지 네트워크는 Ollama 의 존재를 전혀 알지 못합니다.

로그는 시스템이 화재 상태일 때도 여전히 사용할 수 있는 디버깅 인터페이스입니다. 문제는 평문 텍스트 로그는 시간이 지날수록 관리하기 어려워진다는 점입니다. 필터링, 집계, 알림이 필요해지자마자 문장을 파싱하게 됩니다.

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama

Ollama 는 베어 메탈 (bare metal) 환경에서 훌륭하게 작동합니다. 이를 서비스처럼 다룰 때 더욱 흥미로운데, 안정적인 엔드포인트, 고정된 버전, 영구 저장소, 그리고 GPU 가 있거나 없는 명확한 상태를 보장받기 때문입니다.

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

검색 증강 생성 (RAG)을 공부 중이시라면, 이 섹션에서는 텍스트 임베딩이 무엇인지, 검색 및 검색 (retrieval) 과 어떻게 연관되는지, 그리고 Ollama 또는 OpenAI 호환 HTTP API(많은 llama.cpp 기반 서버에서 제공하는 방식) 를 사용하여 Python에서 두 가지 일반적인 로컬 설정을 호출하는 방법을 쉽게 설명합니다.

현대 시스템에서 시스템 인터페이스로서의 채팅 플랫폼

알림 및 제어 루프를 위한 Discord 통합 패턴

알erts 와 워크플로우를 위한 Slack 통합 패턴

프로덕션 환경의 앱 아키텍처: 통합 패턴, 코드 설계 및 데이터 접근

Claude, OpenClaw, 그리고 에이전트의 플랫 페이싱 종말

Vane (Perplexica 2.0) Ollama 와 llama.cpp 를 이용한 빠른 시작

Claude Code의 Ollama 및 llama.cpp 설치 및 설정, 가격 정책

허메스 AI 어시스턴트 - 설치, 설정, 워크플로우 및 문제 해결

TGI - 텍스트 생성 추론 - 설치, 구성, 문제 해결

llama.cpp를 이용한 16GB VRAM LLM 벤치마크 (속도 및 컨텍스트)

호주 RTX 5090, 2026 년 3 월 가격과 재고 현실

Tailscale 또는 WireGuard를 통한 원격 Ollama 접근, 공개 포트 없음

관측 가능성과 알림을 위한 Go의 slog를 활용한 구조화된 로깅

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

구독하기