Self-Hosting

리눅스 서비스를 위한 Podman Quadlet과 Docker Compose 비교

Docker Compose와 Podman Quadlet은 겹치는 문제를 해결하지만 서로 다른 설계 관점에서 출발했으며, 이 중 무엇을 선택할지는 애플리케이션 스택으로 사고하는지 아니면 리눅스 서비스로 사고하는지에 따라 달라집니다.

systemd를 사용하여 Docker Compose를 Linux 서비스로 실행하기

리눅스 서버에서 Docker Compose는 부팅 시 시작되고, 종료 시 깨끗하게 멈춰야 하며, 수동 개입 없이 재부팅을 견뎌야 합니다.

Ubuntu에 Docker를 설치하는 것은 간단해 보이지만, 실제로는 동일한 명령어 이름을 놓고 경쟁하는 여러 Docker 관련 옵션들이 존재합니다. 각 옵션은 패키징, 업그레이드 동작, 보안 영향 측면에서 차이가 있습니다.

Ubuntu APT 문제 해결: 손상된 패키지, 홀드(Hold) 및 GPG 오류 수정

장기간 사용된 Ubuntu 머신에서는 APT 실패가 흔히 발생하며, 이는 주로 릴리스 업그레이드, 서드파티 리포지토리 변경, PPA 제거, 수동으로 설치된 .deb 파일 또는 중단된 패키지 설치 후에 나타납니다.

llama.cpp 라우터 모드는 수년 동안 llama-server에 도입된 변화 중 가장 유용한 변화 중 하나입니다. 이는 로컬 LLM 운영자에게 Ollama에서 기대하는 모델 관리 경험에 가까운 기능을 제공하면서도, llama.cpp를 처음부터 사용하게 만드는 원시 성능과 저레벨 제어를 그대로 유지합니다.

이 페이지는 에이전트형 LLM 추론 튜닝에 대한 실용적인 참고 자료입니다(temperature, top_p, top_k, penalties 및 다단계 및 도구 중심 워크플로우에서의 상호 작용 방식).

이미 스마트폰으로 텍스트를 통해 헤르메스 에이전트(Hermes Agent)와 대화를 나누고 계실텐데요. 이제 직접 말로 소통하고 음성으로 답변을 받아보시는 게 좋습니다. 특히 헤르메스를 영구적인 자체 호스팅 어시스턴트로 사용하고 계신다면 이는 가장 올바른 선택입니다. 작은 화면에서 긴 프롬프트를 입력하는 것은 느리고 실수가 발생하기 쉽기 때문입니다.

2026년 안전한 OpenClaw 운영을 위한 NemoClaw 실전 가이드

대부분의 AI 에이전트 스택은 보안 문제를 데모 이후의 수정 사항으로 취급합니다. NemoClaw은 정반대의 가정에서 출발하며, 격리, 정책 및 라우팅을 초기부터 기본값으로 설정합니다.

2026년 지식 관리: PKM 도구, 셀프 호스팅 위키 및 디지털 시스템

개인 지식 관리(PKM)는 Obsidian, Logseq, DokuWiki, Zettelkasten, PARA 등을 아우르는 광범위한 영역입니다. 올바른 선택은 로컬 기반의 노트 그래프, 자체 호스팅 위키, 또는 아웃라이너 기반의 워크플로우 중 무엇을 원하는지에 따라 달라집니다.

에이전트 실험의 물결을 이끈 조용한 루트가 이제 막혔습니다.

Vane (Perplexica 2.0) Ollama 와 llama.cpp 를 이용한 빠른 시작

Vane 은 “인용된 AI 검색” 분야에서 더 실용적인 솔루션 중 하나입니다. 이는 실시간 웹 검색과 로컬 또는 클라우드 LLM 을 결합하면서도 전체 스택을 사용자의 통제 하에 두는 자체 호스팅형 답변 엔진입니다.

Text Generation Inference(TGI) 는 매우 특유의 에너지를 지니고 있습니다. 추론 분야에서 가장 새로운 기술은 아니지만, 이미 프로덕션 환경에서 발생하는 문제를 잘 이해하고 있습니다.

llama.cpp를 이용한 16GB VRAM LLM 벤치마크 (속도 및 컨텍스트)

여기서는 VRAM이 16GB인 GPU에서 여러 LLM의 속도를 비교하고, 자체 호스팅에 가장 적합한 모델을 선정해 보겠습니다.

호주에 RTX 5090 재고가 있습니다. 마침내. 하지만 하나를 찾아도 현실과 동떨어진 프리미엄 가격을 지불해야 합니다.

Tailscale 또는 WireGuard를 통한 원격 Ollama 접근, 공개 포트 없음

Ollama 는 로컬 데몬 (daemon) 으로 취급될 때 가장 행복해합니다: CLI 와 애플리케이션이 루프백 HTTP API 와 통신하며, 나머지 네트워크는 Ollama 의 존재를 전혀 알지 못합니다.

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama

Ollama 는 베어 메탈 (bare metal) 환경에서 훌륭하게 작동합니다. 이를 서비스처럼 다룰 때 더욱 흥미로운데, 안정적인 엔드포인트, 고정된 버전, 영구 저장소, 그리고 GPU 가 있거나 없는 명확한 상태를 보장받기 때문입니다.

Self-Hosting

리눅스 서비스를 위한 Podman Quadlet과 Docker Compose 비교

systemd를 사용하여 Docker Compose를 Linux 서비스로 실행하기

우분투에 도커 설치: APT, 스냅, 루트리스 — 2026 완전 가이드

Ubuntu APT 문제 해결: 손상된 패키지, 홀드(Hold) 및 GPG 오류 수정

llama.cpp 라우터 모델 재시작 없이 전체 언로드

Qwen 및 Gemma를 위한 에이전틱 LLM 추론 파라미터 참조

폰으로 허메스 음성 제어

2026년 안전한 OpenClaw 운영을 위한 NemoClaw 실전 가이드

2026년 지식 관리: PKM 도구, 셀프 호스팅 위키 및 디지털 시스템

Claude, OpenClaw, 그리고 에이전트의 플랫 페이싱 종말

Vane (Perplexica 2.0) Ollama 와 llama.cpp 를 이용한 빠른 시작

TGI - 텍스트 생성 추론 - 설치, 구성, 문제 해결

llama.cpp를 이용한 16GB VRAM LLM 벤치마크 (속도 및 컨텍스트)

호주 RTX 5090, 2026 년 3 월 가격과 재고 현실

Tailscale 또는 WireGuard를 통한 원격 Ollama 접근, 공개 포트 없음

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama