LLM

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

검색 증강 생성 (RAG)을 공부 중이시라면, 이 섹션에서는 텍스트 임베딩이 무엇인지, 검색 및 검색 (retrieval) 과 어떻게 연관되는지, 그리고 Ollama 또는 OpenAI 호환 HTTP API(많은 llama.cpp 기반 서버에서 제공하는 방식) 를 사용하여 Python에서 두 가지 일반적인 로컬 설정을 호출하는 방법을 쉽게 설명합니다.

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

SGLang 은 단일 GPU 에서 분산 클러스터에 이르기까지 저지연 및 고휘도 추론을 제공하도록 설계된 대규모 언어 모델 및 멀티모달 모델용 고성능 서비스 프레임워크입니다.

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드

곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 관리하게 될 것입니다. 모든 다운스트림 시스템은 여전히 하나의 /v1 기본 URL 을 요구하며, 그렇지 않으면 포트, 프로필, 일회성 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 위치한 /v1 프록시입니다.

대부분의 로컬 AI 설정은 모델과 런타임(runtime)에서 시작합니다.

오픈코드 리뷰: 솔직한 결과, 청구 리스크, 그리고 투자할 가치가 있는 경우

Oh My Opencode 는 “가상의 AI 개발 팀"을 약속합니다. Sisyphus 가 전문가들을 지휘하고, 작업이 병렬로 실행되며, 마법 같은 ultrawork 키워드가 모든 것을 활성화합니다.

Oh My Opencode 는 OpenCode 를 **멀리 에이전트 코딩 하네스 (multi-agent coding harness)**로 변신시킵니다. 오케스트레이터가 작업을 병렬로 실행하는 전문 에이전트에게 위임합니다.

오픈코드를 위한 최고의 LLM - 로컬 테스트를 통한 Gemma 4부터 Qwen 3.6까지

로컬 호스팅된 Ollama 및 llama.cpp 기반 LLM들과 OpenCode가 어떻게 작동하는지 테스트해 보았습니다. 비교를 위해 OpenCode Zen의 일부 무료 모델도 추가했습니다.

OpenCode 의 가장 큰 능력 향상은 전담 에이전트 (specialised agents) 에서 비롯됩니다: 오케스트레이션, 계획, 실행, 연구의 의도적인 분리입니다.

OpenHands 는 AI 기반 소프트웨어 개발 에이전트를 위한 오픈소스, 모델 불특정 플랫폼입니다. 이 플랫폼은 에이전트가 단순한 자동 완성 도구가 아닌, 실제 코딩 파트너처럼 행동할 수 있도록 합니다.

LocalAI 빠른 시작: OpenAI 호환 대형 언어 모델을 로컬에서 실행하기

LocalAI 는 자신의 하드웨어 (노트북, 워크스테이션, 온프레미스 서버) 에서 AI 워크로드를 실행하기 위해 설계된 자체 호스팅, 로컬 우선 추론 서버로, OpenAI API 와의 호환성을 제공하여 기존 도구를 그대로 사용할 수 있도록 합니다.

로컬 추론을 위해 llama.cpp 로 계속 돌아오게 됩니다. 이 도구는 Ollama 와 다른 도구들이 추상화하는 제어를 제공하며, 실제로 작동합니다. llama-cli 를 통해 GGUF 모델을 대화식으로 쉽게 실행하거나, llama-server 를 통해 OpenAI 호환 HTTP API 를 노출할 수 있습니다.

인공지능은 소프트웨어의 작성, 검토, 배포, 유지 관리 방식을 재구성하고 있습니다. AI 코드 어시스턴트부터 GitOps 자동화 및 DevOps 워크플로우에 이르기까지, 개발자들은 이제 소프트웨어 수명 주기의 전 과정에서 AI 기반 도구에 의존하고 있습니다.

OpenCode 빠른 시작: 터미널 AI 코딩 에이전트 설치, 구성 및 사용

OpenCode는 데스크톱 및 IDE 인터페이스를 선택적으로 지원하며 터미널(TUI + CLI)에서 실행할 수 있는 오픈 소스 AI 코딩 에이전트입니다. 여기는 OpenCode 빠른 시작 가이드입니다: 설치, 확인, 모델/제공자 연결 및 실제 워크플로우(CLI + API) 실행을 다룹니다.

프로덕션 환경에서 LLM 추론 모니터링 (2026): vLLM, TGI, llama.cpp 를 위한 Prometheus 및 Grafana

LLM 추론은 “단순한 또 하나의 API"처럼 보이지만, 지연 시간이 급증하고 대기열이 쌓이며 GPU 메모리가 95% 사용되는데도 명확한 원인을 파악할 수 없게 되면 상황이 달라집니다.

OpenClaw 빠른 시작: Docker 를 활용한 설치 (Ollama GPU 또는 Claude + CPU)

OpenClaw 는 Ollama 와 같은 로컬 LLM 런타임 또는 Claude Sonnet 과 같은 클라우드 기반 모델과 함께 실행되도록 설계된 자체 호스팅 AI 어시스턴트입니다.

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드

AI 시스템: 자체 호스팅 어시스턴트, RAG 및 로컬 인프라

오픈코드 리뷰: 솔직한 결과, 청구 리스크, 그리고 투자할 가치가 있는 경우

오픈코드(OpeCode) 퀵스타트: 설치, 설정 및 실행 가이드

오픈코드를 위한 최고의 LLM - 로컬 테스트를 통한 Gemma 4부터 Qwen 3.6까지

오 마이 오픈코드: 전문 에이전트 심층 분석 및 모델 가이드

OpenHands 코딩 비서 빠른 시작: 설치, CLI 플래그, 예시

LocalAI 빠른 시작: OpenAI 호환 대형 언어 모델을 로컬에서 실행하기

CLI 및 서버를 활용한 llama.cpp 빠른 시작

AI 개발 도구: AI 기반 개발을 위한 완전한 가이드

OpenCode 빠른 시작: 터미널 AI 코딩 에이전트 설치, 구성 및 사용

프로덕션 환경에서 LLM 추론 모니터링 (2026): vLLM, TGI, llama.cpp 를 위한 Prometheus 및 Grafana

OpenClaw 빠른 시작: Docker 를 활용한 설치 (Ollama GPU 또는 Claude + CPU)