Cheatsheet

llama.cpp 라우터 모드는 수년 동안 llama-server에 도입된 변화 중 가장 유용한 변화 중 하나입니다. 이는 로컬 LLM 운영자에게 Ollama에서 기대하는 모델 관리 경험에 가까운 기능을 제공하면서도, llama.cpp를 처음부터 사용하게 만드는 원시 성능과 저레벨 제어를 그대로 유지합니다.

이 페이지는 에이전트형 LLM 추론 튜닝에 대한 실용적인 참고 자료입니다(temperature, top_p, top_k, penalties 및 다단계 및 도구 중심 워크플로우에서의 상호 작용 방식).

Hermes Agent CLI 치트시트 — 명령어, 플래그 및 슬래시 단축키

Nous Research의 Hermes Agent는 모델에 종속되지 않으며 도구를 사용하는 어시스턴트로, 로컬이나 VPS에서 실행할 수 있습니다.

2026년 안전한 OpenClaw 운영을 위한 NemoClaw 실전 가이드

대부분의 AI 에이전트 스택은 보안 문제를 데모 이후의 수정 사항으로 취급합니다. NemoClaw은 정반대의 가정에서 출발하며, 격리, 정책 및 라우팅을 초기부터 기본값으로 설정합니다.

오랜 기간 동안 llama.cpp에는 뚜렷한 한계가 존재했습니다.
즉, 프로세스당 단 하나의 모델만 서빙(serving)할 수 있었으며, 모델을 변경하려면 재시작이 필요했습니다.

Bash, CMD, PowerShell, macOS 에서 '임의 키 입력'으로 스크립트 일시 정지하기

배치 파일과 쉘 스크립트는 종종 더블 클릭한 창이나 설치 프로그램 로그가 가시성을 유지할 수 있도록 짧은 대기 시간이 필요합니다. Windows CMD 에는 전용 pause 명령어가 있습니다. Unix 쉘은 **read**를 사용합니다.

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

SGLang 은 단일 GPU 에서 분산 클러스터에 이르기까지 저지연 및 고휘도 추론을 제공하도록 설계된 대규모 언어 모델 및 멀티모달 모델용 고성능 서비스 프레임워크입니다.

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드

곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 관리하게 될 것입니다. 모든 다운스트림 시스템은 여전히 하나의 /v1 기본 URL 을 요구하며, 그렇지 않으면 포트, 프로필, 일회성 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 위치한 /v1 프록시입니다.

OpenHands 는 AI 기반 소프트웨어 개발 에이전트를 위한 오픈소스, 모델 불특정 플랫폼입니다. 이 플랫폼은 에이전트가 단순한 자동 완성 도구가 아닌, 실제 코딩 파트너처럼 행동할 수 있도록 합니다.

LocalAI 빠른 시작: OpenAI 호환 대형 언어 모델을 로컬에서 실행하기

LocalAI 는 자신의 하드웨어 (노트북, 워크스테이션, 온프레미스 서버) 에서 AI 워크로드를 실행하기 위해 설계된 자체 호스팅, 로컬 우선 추론 서버로, OpenAI API 와의 호환성을 제공하여 기존 도구를 그대로 사용할 수 있도록 합니다.

로컬 추론을 위해 llama.cpp로 계속 돌아가게 됩니다. 이 도구는 Ollama 등 다른 도구들이 추상화해버리는 부분을 직접 제어할 수 있게 해주고, 단순히 잘 작동하기 때문입니다. llama-cli를 사용하여 GGUF 모델을 대화형으로 쉽게 실행하거나, llama-server를 통해 OpenAI 호환 HTTP API를 노출할 수 있습니다.

OpenCode 빠른 시작: 터미널 AI 코딩 에이전트 설치, 구성 및 사용

OpenCode는 데스크톱 및 IDE 인터페이스를 선택적으로 지원하며 터미널(TUI + CLI)에서 실행할 수 있는 오픈 소스 AI 코딩 에이전트입니다. 여기는 OpenCode 빠른 시작 가이드입니다: 설치, 확인, 모델/제공자 연결 및 실제 워크플로우(CLI + API) 실행을 다룹니다.

Go에서의 브라우저 자동화: Selenium, chromedp, Playwright, ZenRows

올바른 브라우저 자동화 스택과 Go를 사용한 웹 스크래핑([https://www.glukhov.org/ko/developer-tools/automation-testing/browser-automation-in-go-scraping-selenium-playwright-alternatives/ “브라우저 자동화 스택 및 Go를 사용한 웹 스크래핑”)을 선택하는 것은 속도, 유지보수, 그리고 코드가 실행되는 위치에 영향을 미칩니다.

Ubuntu 24에서 표준 아이콘을 사용하여 데스크탑 런처를 설정하는 방법

Ubuntu 24의 데스크탑 런처 (및 대부분의 데스크탑)은 .desktop 파일로 정의됩니다: 애플리케이션 또는 링크를 설명하는 작은 텍스트 기반의 구성 파일입니다.

파이썬으로 브라우저 자동화하기: Playwright, Selenium 및 기타 도구

Python에서 사용할 브라우저 자동화 스택을 선택하는 것은 속도, 안정성, 유지보수에 영향을 미칩니다.
이 개요는
Playwright vs Selenium vs Puppeteer vs LambdaTest vs ZenRows vs Gauge -
Python에 초점을 맞추며, Node.js 또는 다른 언어가 어디에 적합한지 주목합니다.

터미널 UI: BubbleTea (Go) vs Ratatui (Rust)

두 가지 강력한 선택지는 오늘날 터미널 사용자 인터페이스(TUI)를 구축하는 데 있어 BubbleTea (Go) 및 Ratatui (Rust). 하나는 Elm 스타일의 의견 있는 프레임워크를 제공하고, 다른 하나는 유연한 즉시 모드 라이브러리입니다.

Cheatsheet

llama.cpp 라우터 모델 재시작 없이 전체 언로드

Qwen 및 Gemma를 위한 에이전틱 LLM 추론 파라미터 참조

Hermes Agent CLI 치트시트 — 명령어, 플래그 및 슬래시 단축키

2026년 안전한 OpenClaw 운영을 위한 NemoClaw 실전 가이드

Llama-Server 라우터 모드 - 재시작 없이 동적 모델 전환

Bash, CMD, PowerShell, macOS 에서 '임의 키 입력'으로 스크립트 일시 정지하기

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드

OpenHands 코딩 비서 빠른 시작: 설치, CLI 플래그, 예시

LocalAI 빠른 시작: OpenAI 호환 대형 언어 모델을 로컬에서 실행하기

CLI와 서버를 사용한 llama.cpp 빠른 시작

OpenCode 빠른 시작: 터미널 AI 코딩 에이전트 설치, 구성 및 사용

Go에서의 브라우저 자동화: Selenium, chromedp, Playwright, ZenRows

Ubuntu 24에서 표준 아이콘을 사용하여 데스크탑 런처를 설정하는 방법

파이썬으로 브라우저 자동화하기: Playwright, Selenium 및 기타 도구

터미널 UI: BubbleTea (Go) vs Ratatui (Rust)