Self-Hosting

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

검색 증강 생성 (RAG)을 공부 중이시라면, 이 섹션에서는 텍스트 임베딩이 무엇인지, 검색 및 검색 (retrieval) 과 어떻게 연관되는지, 그리고 Ollama 또는 OpenAI 호환 HTTP API(많은 llama.cpp 기반 서버에서 제공하는 방식) 를 사용하여 Python에서 두 가지 일반적인 로컬 설정을 호출하는 방법을 쉽게 설명합니다.

정적 사이트와 블로그는 배포할 때마다 변경됩니다. IndexNow를 지원하는 검색 엔진 은 다음 맹목적 크롤링을 기다리지 않고도 이러한 변경 사항을 학습할 수 있습니다.

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

SGLang 은 단일 GPU 에서 분산 클러스터에 이르기까지 저지연 및 고휘도 추론을 제공하도록 설계된 대규모 언어 모델 및 멀티모달 모델용 고성능 서비스 프레임워크입니다.

Apache Kafka 빠른 시작 - CLI로 Kafka 4.2 설치 및 로컬 예제 실행

Apache Kafka 4.2.0가 현재 지원되는 릴리스 라인이며, Kafka 4.x는 기본적으로 완전히 ZooKeeper를 필요로 하지 않고 KRaft를 기반으로 구축되어 있어 현대적인 빠른 시작(Quickstart)에 가장 적합한 기준점입니다.

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드

곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 관리하게 될 것입니다. 모든 다운스트림 시스템은 여전히 하나의 /v1 기본 URL 을 요구하며, 그렇지 않으면 포트, 프로필, 일회성 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 위치한 /v1 프록시입니다.

오픈코드 리뷰: 솔직한 결과, 청구 리스크, 그리고 투자할 가치가 있는 경우

Oh My Opencode 는 “가상의 AI 개발 팀"을 약속합니다. Sisyphus 가 전문가들을 지휘하고, 작업이 병렬로 실행되며, 마법 같은 ultrawork 키워드가 모든 것을 활성화합니다.

Oh My Opencode 는 OpenCode 를 **멀리 에이전트 코딩 하네스 (multi-agent coding harness)**로 변신시킵니다. 오케스트레이터가 작업을 병렬로 실행하는 전문 에이전트에게 위임합니다.

오픈코드를 위한 최고의 LLM - 로컬 테스트를 통한 Gemma 4부터 Qwen 3.6까지

로컬 호스팅된 Ollama 및 llama.cpp 기반 LLM들과 OpenCode가 어떻게 작동하는지 테스트해 보았습니다. 비교를 위해 OpenCode Zen의 일부 무료 모델도 추가했습니다.

OpenCode 의 가장 큰 능력 향상은 전담 에이전트 (specialised agents) 에서 비롯됩니다: 오케스트레이션, 계획, 실행, 연구의 의도적인 분리입니다.

OpenHands 는 AI 기반 소프트웨어 개발 에이전트를 위한 오픈소스, 모델 불특정 플랫폼입니다. 이 플랫폼은 에이전트가 단순한 자동 완성 도구가 아닌, 실제 코딩 파트너처럼 행동할 수 있도록 합니다.

LocalAI 빠른 시작: OpenAI 호환 대형 언어 모델을 로컬에서 실행하기

LocalAI 는 자신의 하드웨어 (노트북, 워크스테이션, 온프레미스 서버) 에서 AI 워크로드를 실행하기 위해 설계된 자체 호스팅, 로컬 우선 추론 서버로, OpenAI API 와의 호환성을 제공하여 기존 도구를 그대로 사용할 수 있도록 합니다.

프로덕션 환경에서 LLM 추론 모니터링 (2026): vLLM, TGI, llama.cpp 를 위한 Prometheus 및 Grafana

LLM 추론은 “단순한 또 하나의 API"처럼 보이지만, 지연 시간이 급증하고 대기열이 쌓이며 GPU 메모리가 95% 사용되는데도 명확한 원인을 파악할 수 없게 되면 상황이 달라집니다.

OpenClaw 빠른 시작: Docker로 설치 (Ollama GPU 또는 Claude + CPU)

OpenClaw는 Ollama와 같은 로컬 LLM 런타임이나 Claude Sonnet과 같은 클라우드 기반 모델과 함께 실행하도록 설계된 셀프 호스팅(Self-hosted) AI 어시스턴트입니다.

가라지 vs MinIO vs AWS S3: 오브젝트 스토리지 비교 및 기능 매트릭스

AWS S3는 객체 저장소의 “기본” 기준으로 남아 있습니다: 완전히 관리되며, 강한 일관성을 가지며, 극히 높은 내구성과 가용성을 위해 설계되었습니다.
Garage와 MinIO는 자가 호스팅, S3 호환 대체 옵션: Garage는 가볍고, 지리적으로 분산된 소규모에서 중규모 클러스터를 위한 설계가 되었으며, MinIO는 S3 API 기능 범위를 광범위하게 지원하고, 대규모 배포에서의 고성능을 강조합니다.

Garage은 소규모에서 중간 규모 배포에 적합한 오픈소스, 자체 호스팅, S3 호환 오브젝트 스토리지 시스템으로, 강력한 내구성과 지리 분산에 중점을 두고 설계되었습니다.

Self-Hosting

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

IndexNow 설명 - 콘텐츠를 게시할 때 검색 엔진에 알림

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

Apache Kafka 빠른 시작 - CLI로 Kafka 4.2 설치 및 로컬 예제 실행

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드

오픈코드 리뷰: 솔직한 결과, 청구 리스크, 그리고 투자할 가치가 있는 경우

오픈코드(OpeCode) 퀵스타트: 설치, 설정 및 실행 가이드

오픈코드를 위한 최고의 LLM - 로컬 테스트를 통한 Gemma 4부터 Qwen 3.6까지

오 마이 오픈코드: 전문 에이전트 심층 분석 및 모델 가이드

OpenHands 코딩 비서 빠른 시작: 설치, CLI 플래그, 예시

LocalAI 빠른 시작: OpenAI 호환 대형 언어 모델을 로컬에서 실행하기

프로덕션 환경에서 LLM 추론 모니터링 (2026): vLLM, TGI, llama.cpp 를 위한 Prometheus 및 Grafana

OpenClaw 빠른 시작: Docker로 설치 (Ollama GPU 또는 Claude + CPU)

가라지 vs MinIO vs AWS S3: 오브젝트 스토리지 비교 및 기능 매트릭스

가이드 - S3 호환 오브젝트 스토리지 빠른 시작