Vane (Perplexica 2.0) Ollama 와 llama.cpp 를 이용한 빠른 시작
로컬 LLM을 활용한 자체 호스팅 AI 검색
Vane 은 “인용된 AI 검색” 분야에서 더 실용적인 솔루션 중 하나입니다. 이는 실시간 웹 검색과 로컬 또는 클라우드 LLM 을 결합하면서도 전체 스택을 사용자의 통제 하에 두는 자체 호스팅형 답변 엔진입니다.
로컬 LLM을 활용한 자체 호스팅 AI 검색
Vane 은 “인용된 AI 검색” 분야에서 더 실용적인 솔루션 중 하나입니다. 이는 실시간 웹 검색과 로컬 또는 클라우드 LLM 을 결합하면서도 전체 스택을 사용자의 통제 하에 두는 자체 호스팅형 답변 엔진입니다.
로컬 모델 백엔드를 갖춘 에이전틱 코딩
Claude Code는 마케팅만 뛰어난 자동 완성 도구가 아닙니다. 이것은 에이전트 기반 코딩 도구입니다. 코드베이스를 읽고, 파일을 편집하며, 명령을 실행하고, 개발 도구와 통합됩니다.
개발자를 위한 Hermes Agent 설치 및 빠른 시작
Hermes Agent은 로컬 머신이나 저비용 VPS에서 실행되는 자체 호스팅(model-agnostic) AI 어시스턴트입니다. 터미널 및 메시징 인터페이스를 통해 작동하며, 반복되는 작업을 재사용 가능한 스킬로 변환하여 시간이 지남에 따라 지속적으로 성능을 향상시킵니다.
TGI 를 설치하고 빠르게 배포하며 더 빠르게 디버깅하세요.
Text Generation Inference(TGI) 는 매우 특유의 에너지를 지니고 있습니다. 추론 분야에서 가장 새로운 기술은 아니지만, 이미 프로덕션 환경에서 발생하는 문제를 잘 이해하고 있습니다.
16GB VRAM에서의 llama.cpp 토큰 속도 (표).
VRAM 16GB GPU 에서 여러 LLM 의 속도를 비교하고, 자체 호스팅에 가장 적합한 모델을 선택했습니다.
호주에서는 RTX 5090 가 품귀 현상을 보이고 가격이 비쌉니다.
호주에 RTX 5090 재고가 있습니다. 마침내. 하지만 하나를 찾아도 현실과 동떨어진 프리미엄 가격을 지불해야 합니다.
공용 포트를 사용하지 않는 원격 Ollama 접근
Ollama 는 로컬 데몬 (daemon) 으로 취급될 때 가장 행복해합니다: CLI 와 애플리케이션이 루프백 HTTP API 와 통신하며, 나머지 네트워크는 Ollama 의 존재를 전혀 알지 못합니다.
트레이스에 연결되는 쿼리 가능한 JSON 로그
로그는 시스템이 화재 상태일 때도 여전히 사용할 수 있는 디버깅 인터페이스입니다. 문제는 평문 텍스트 로그는 시간이 지날수록 관리하기 어려워진다는 점입니다. 필터링, 집계, 알림이 필요해지자마자 문장을 파싱하게 됩니다.
GPU 와 영속성을 갖춘 Compose 우선 Ollama 서버
Ollama 는 베어 메탈 (bare metal) 환경에서 훌륭하게 작동합니다. 이를 서비스처럼 다룰 때 더욱 흥미로운데, 안정적인 엔드포인트, 고정된 버전, 영구 저장소, 그리고 GPU 가 있거나 없는 명확한 상태를 보장받기 때문입니다.
스트리밍 응답을 깨뜨리지 않고 HTTPS를 사용한 Ollama
리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.
RAG 임베딩 - Python, Ollama, OpenAI API.
검색 증강 생성 (RAG)을 공부 중이시라면, 이 섹션에서는 텍스트 임베딩이 무엇인지, 검색 및 검색 (retrieval) 과 어떻게 연관되는지, 그리고 Ollama 또는 OpenAI 호환 HTTP API(많은 llama.cpp 기반 서버에서 제공하는 방식) 를 사용하여 Python에서 두 가지 일반적인 로컬 설정을 호출하는 방법을 쉽게 설명합니다.
Git 기반 배포, CDN, 크레딧 및 트레이드오프
Netlify 는 Hugo 사이트와 모던 웹 애플리케이션을 프로덕션급 워크플로우로 배포하는 가장 개발자 친화적인 방법 중 하나입니다: 모든 풀 리퀘스트에 대한 미리보기 URL, 원자적 배포, 글로벌 CDN, 그리고 선택적 서버리스 및 엣지 기능을 제공합니다.
상태 유지 스트리밍, 체크포인트, K8s, PyFlink, Go.
Apache Flink 는 유계 및 무계 데이터 스트림에 대한 상태 기반 연산을 위한 프레임워크입니다.
그래프, 시퍼, 벡터 및 연산 강화
Neo4j 는 관계가 곧 데이터일 때 찾아야 할 솔루션입니다. 도메인이 원과 화살표로 가득 찬 화이트보드처럼 보인다면, 이를 테이블로 강제하는 것은 고통스럽습니다.
후회하지 않고 도메인에 적합한 호스팅 이메일을 선택하세요.
자신의 도메인에 이메일을 설정하는 것은 주말에 DNS 작업만 하면 될 것 같습니다. 그러나 실제로는 20 년의 역사를 가진 소규모 분산 시스템입니다.
배포 후 검색 엔진에 Push URL 업데이트를 전송합니다.
정적 사이트와 블로그는 배포할 때마다 변경됩니다. IndexNow를 지원하는 검색 엔진 은 다음 맹목적 크롤링을 기다리지 않고도 이러한 변경 사항을 학습할 수 있습니다.
시스템, 인프라, AI 엔지니어링에 관한 새 글을 받아보세요.