Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현
스트리밍 응답을 깨뜨리지 않고 HTTPS를 사용한 Ollama
리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.
스트리밍 응답을 깨뜨리지 않고 HTTPS를 사용한 Ollama
리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.
SGLang 로 오픈 모델을 빠르게 제공하세요.
SGLang 은 단일 GPU 에서 분산 클러스터에 이르기까지 저지연 및 고휘도 추론을 제공하도록 설계된 대규모 언어 모델 및 멀티모달 모델용 고성능 서비스 프레임워크입니다.
클라이언트를 변경하지 않고 로컬 LLM을 핫스왑합니다.
곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 관리하게 될 것입니다. 모든 다운스트림 시스템은 여전히 하나의 /v1 기본 URL 을 요구하며, 그렇지 않으면 포트, 프로필, 일회성 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 위치한 /v1 프록시입니다.
대부분의 로컬 AI 설정은 모델과 런타임에서 시작합니다.
Ultrawork 를 실행할 때 실제로 어떤 일이 일어나는지 알아봅니다.
Oh My Opencode 는 “가상의 AI 개발 팀"을 약속합니다. Sisyphus 가 전문가들을 지휘하고, 작업이 병렬로 실행되며, 마법 같은 ultrawork 키워드가 모든 것을 활성화합니다.
Oh My Opencode 를 설치하고 더 빠르게 배포하세요.
Oh My Opencode 는 OpenCode 를 **멀리 에이전트 코딩 하네스 (multi-agent coding harness)**로 변신시킵니다. 오케스트레이터가 작업을 병렬로 실행하는 전문 에이전트에게 위임합니다.
OpenCode LLM 테스트 — 코딩 및 정확도 통계
로컬 호스팅된 Ollama 및 llama.cpp 기반 LLM들과 OpenCode가 어떻게 작동하는지 테스트해 보았습니다. 비교를 위해 OpenCode Zen의 일부 무료 모델도 추가했습니다.
시시포스와 그 전문 에이전트 팀을 소개합니다.
OpenCode 의 가장 큰 능력 향상은 전담 에이전트 (specialised agents) 에서 비롯됩니다: 오케스트레이션, 계획, 실행, 연구의 의도적인 분리입니다.
OpenHands CLI, 몇 분 만에 빠르게 시작하세요
OpenHands 는 AI 기반 소프트웨어 개발 에이전트를 위한 오픈소스, 모델 불특정 플랫폼입니다. 이 플랫폼은 에이전트가 단순한 자동 완성 도구가 아닌, 실제 코딩 파트너처럼 행동할 수 있도록 합니다.
분산형 로컬 AI 를 통해 OpenAI 호환 API 를 LocalAI 로 몇 분 안에 자체 호스팅하세요.
LocalAI 는 자신의 하드웨어 (노트북, 워크스테이션, 온프레미스 서버) 에서 AI 워크로드를 실행하기 위해 설계된 자체 호스팅, 로컬 우선 추론 서버로, OpenAI API 와의 호환성을 제공하여 기존 도구를 그대로 사용할 수 있도록 합니다.
OpenCode 설치, 구성 및 사용 방법
로컬 추론을 위해 llama.cpp로 계속 돌아가게 됩니다. 이 도구는 Ollama 등 다른 도구들이 추상화해버리는 부분을 직접 제어할 수 있게 해주고, 단순히 잘 작동하기 때문입니다. llama-cli를 사용하여 GGUF 모델을 대화형으로 쉽게 실행하거나, llama-server를 통해 OpenAI 호환 HTTP API를 노출할 수 있습니다.
인공지능은 소프트웨어의 작성, 검토, 배포, 유지 관리 방식을 재구성하고 있습니다. AI 코드 어시스턴트부터 GitOps 자동화 및 DevOps 워크플로우에 이르기까지, 개발자들은 이제 소프트웨어 수명 주기의 전 과정에서 AI 기반 도구에 의존하고 있습니다.
OpenCode 설치, 구성 및 사용 방법
OpenCode는 데스크톱 및 IDE 인터페이스를 선택적으로 지원하며 터미널(TUI + CLI)에서 실행할 수 있는 오픈 소스 AI 코딩 에이전트입니다. 여기는 OpenCode 빠른 시작 가이드입니다: 설치, 확인, 모델/제공자 연결 및 실제 워크플로우(CLI + API) 실행을 다룹니다.
에어테이블 - 무료 계획 제한, API, 웹후크, Go 및 Python.
Airtable는 주로 협업하는 “데이터베이스처럼” 된 스프레드시트 UI를 기반으로 한 저코드 애플리케이션 플랫폼으로 생각하는 것이 가장 좋습니다. 비개발자들이 친근한 인터페이스를 필요로 하지만, 개발자들도 자동화와 통합을 위한 API 표면이 필요할 때 매우 빠르게 운영 도구를 생성하는 데 적합합니다(내부 트래커, 가벼운 CRM, 콘텐츠 파이프라인, AI 평가 대기열 등).
프로미스스(Prometheus) 와 그라파나(Grafana) 를 활용한 LLM 모니터링
LLM 추론은 “단순한 또 하나의 API"처럼 보이지만, 지연 시간이 급증하고 대기열이 쌓이며 GPU 메모리가 95% 사용되는데도 명확한 원인을 파악할 수 없게 되면 상황이 달라집니다.
로컬에 Ollama를 사용하여 OpenClaw 설치
OpenClaw는 Ollama와 같은 로컬 LLM 런타임이나 Claude Sonnet과 같은 클라우드 기반 모델과 함께 실행하도록 설계된 셀프 호스팅(Self-hosted) AI 어시스턴트입니다.