Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현
스트리밍 응답을 깨뜨리지 않고 HTTPS를 사용한 Ollama
리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.
스트리밍 응답을 깨뜨리지 않고 HTTPS를 사용한 Ollama
리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.
RAG 임베딩 - Python, Ollama, OpenAI API.
검색 증강 생성 (RAG)을 공부 중이시라면, 이 섹션에서는 텍스트 임베딩이 무엇인지, 검색 및 검색 (retrieval) 과 어떻게 연관되는지, 그리고 Ollama 또는 OpenAI 호환 HTTP API(많은 llama.cpp 기반 서버에서 제공하는 방식) 를 사용하여 Python에서 두 가지 일반적인 로컬 설정을 호출하는 방법을 쉽게 설명합니다.
SGLang 로 오픈 모델을 빠르게 제공하세요.
SGLang 은 단일 GPU 에서 분산 클러스터에 이르기까지 저지연 및 고휘도 추론을 제공하도록 설계된 대규모 언어 모델 및 멀티모달 모델용 고성능 서비스 프레임워크입니다.
클라이언트를 변경하지 않고 로컬 LLM을 핫스왑합니다.
곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 관리하게 될 것입니다. 모든 다운스트림 시스템은 여전히 하나의 /v1 기본 URL 을 요구하며, 그렇지 않으면 포트, 프로필, 일회성 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 위치한 /v1 프록시입니다.
대부분의 로컬 AI 설정은 모델과 런타임(runtime)에서 시작합니다.
Ultrawork 를 실행할 때 실제로 어떤 일이 일어나는지 알아봅니다.
Oh My Opencode 는 “가상의 AI 개발 팀"을 약속합니다. Sisyphus 가 전문가들을 지휘하고, 작업이 병렬로 실행되며, 마법 같은 ultrawork 키워드가 모든 것을 활성화합니다.
Oh My Opencode 를 설치하고 더 빠르게 배포하세요.
Oh My Opencode 는 OpenCode 를 **멀리 에이전트 코딩 하네스 (multi-agent coding harness)**로 변신시킵니다. 오케스트레이터가 작업을 병렬로 실행하는 전문 에이전트에게 위임합니다.
OpenCode LLM 테스트 — 코딩 및 정확도 통계
로컬 호스팅된 Ollama 및 llama.cpp 기반 LLM들과 OpenCode가 어떻게 작동하는지 테스트해 보았습니다. 비교를 위해 OpenCode Zen의 일부 무료 모델도 추가했습니다.
시시포스와 그 전문 에이전트 팀을 소개합니다.
OpenCode 의 가장 큰 능력 향상은 전담 에이전트 (specialised agents) 에서 비롯됩니다: 오케스트레이션, 계획, 실행, 연구의 의도적인 분리입니다.
OpenHands CLI, 몇 분 만에 빠르게 시작하세요
OpenHands 는 AI 기반 소프트웨어 개발 에이전트를 위한 오픈소스, 모델 불특정 플랫폼입니다. 이 플랫폼은 에이전트가 단순한 자동 완성 도구가 아닌, 실제 코딩 파트너처럼 행동할 수 있도록 합니다.
분산형 로컬 AI 를 통해 OpenAI 호환 API 를 LocalAI 로 몇 분 안에 자체 호스팅하세요.
LocalAI 는 자신의 하드웨어 (노트북, 워크스테이션, 온프레미스 서버) 에서 AI 워크로드를 실행하기 위해 설계된 자체 호스팅, 로컬 우선 추론 서버로, OpenAI API 와의 호환성을 제공하여 기존 도구를 그대로 사용할 수 있도록 합니다.
OpenCode 설치, 설정 및 사용 방법
로컬 추론을 위해 llama.cpp 로 계속 돌아오게 됩니다. 이 도구는 Ollama 와 다른 도구들이 추상화하는 제어를 제공하며, 실제로 작동합니다. llama-cli 를 통해 GGUF 모델을 대화식으로 쉽게 실행하거나, llama-server 를 통해 OpenAI 호환 HTTP API 를 노출할 수 있습니다.
인공지능은 소프트웨어의 작성, 검토, 배포, 유지 관리 방식을 재구성하고 있습니다. AI 코드 어시스턴트부터 GitOps 자동화 및 DevOps 워크플로우에 이르기까지, 개발자들은 이제 소프트웨어 수명 주기의 전 과정에서 AI 기반 도구에 의존하고 있습니다.
OpenCode 설치, 구성 및 사용 방법
OpenCode는 데스크톱 및 IDE 인터페이스를 선택적으로 지원하며 터미널(TUI + CLI)에서 실행할 수 있는 오픈 소스 AI 코딩 에이전트입니다. 여기는 OpenCode 빠른 시작 가이드입니다: 설치, 확인, 모델/제공자 연결 및 실제 워크플로우(CLI + API) 실행을 다룹니다.
프로미스스(Prometheus) 와 그라파나(Grafana) 를 활용한 LLM 모니터링
LLM 추론은 “단순한 또 하나의 API"처럼 보이지만, 지연 시간이 급증하고 대기열이 쌓이며 GPU 메모리가 95% 사용되는데도 명확한 원인을 파악할 수 없게 되면 상황이 달라집니다.
Ollama 를 사용하여 로컬에서 OpenClaw 설치하기
OpenClaw 는 Ollama 와 같은 로컬 LLM 런타임 또는 Claude Sonnet 과 같은 클라우드 기반 모델과 함께 실행되도록 설계된 자체 호스팅 AI 어시스턴트입니다.