Llama-Server-routarläge – dynamisk modellbytte utan omstarter
Servera och växla LLM:ar utan omstarter.
En lång tid hade llama.cpp en uppenbar begränsning:
du kunde bara servera en modell per process, och byte innebar ett omstart.
Servera och växla LLM:ar utan omstarter.
En lång tid hade llama.cpp en uppenbar begränsning:
du kunde bara servera en modell per process, och byte innebar ett omstart.
Skapa Claude-färdigheter som klarar av verkligt arbete
De flesta team missbrukar Claude Skills på ett av två sätt. De antingen gör SKILL.md till en soptipp, eller så kliver de aldrig upp från att kopiera och klistra in jättelika promptar.
Profilförsta Hermes-konfigurationer för seriösa arbetsbelastningar
Hermes AI-assistenten, officiellt dokumenterad som Hermes Agent, positioneras inte som en enkel chatt-hylsa.
Färdigheter som är värt att behålla och de som bör utelämnas
OpenClaw har två typer av utökningsberättelser, och de är lätta att blanda ihop.
Plugin utökar runtime-miljön. Färdigheter (skills) utökar agentens beteende.
Plugin först. En kort sammanfattning av färdighetsnamn.
Den här artikeln handlar om OpenClaw-tillägg — inbyggda gateway-paket som lägger till kanaler, modellleverantörer, verktyg, röstminne, media, webbsökning och andra runtime-ytor.
Hur verkliga OpenClaw-system faktiskt är strukturerade
OpenClaw ser enkelt ut i demonstrationer. I produktion blir det ett system.
Claude-prenumerationer driv inte längre agenter.
Den tysta lösningen som drev en våg av experiment med agenter är nu stängd.
Självhöstad AI-sökning med lokala stora språkmodeller
Vane är en av de mer pragmatiska lösningarna inom området för “AI-sök med källhänvisningar”: ett självärbetet svarsmotor som blandar live-webbhämtning med lokala eller molnbaserade LLM:er, samtidigt som hela stacken hålls under din kontroll.
Agentbaserad kodning, nu med lokala modellbakar.
Claude Code är inte bara autocomplete med bättre marknadsföring. Det är ett agenterande verktyg för kodning: det läser din kodbas, redigerar filer, kör kommandon och integrerar med dina utvecklingsverktyg.
Installation och snabbstart för utvecklare av Hermes Agent
Hermes Agent är en självhöstad, modellagnostisk AI-assistent som kör på en lokal maskin eller en billig VPS, fungerar via terminal- och meddelargränssnitt och förbättras över tid genom att omvandla upprepade uppgifter till återanvändbara färdigheter.
Installera TGI, leverera snabbt, felsök ännu snabbare
Text Generation Inference (TGI) har en mycket specifik energi. Det är inte den nyaste killen på inferensgatan, men det är den som redan har lärt sig hur produktion bryts –
Tokenhastighet för llama.cpp på 16 GB VRAM (tabeller).
Här jämför jag hastigheten för flera LLM-modeller som körts på en GPU med 16 GB VRAM och väljer den bästa för självhostning.
Ollama-server med komposition i förgrunden, GPU och uthållighet.
Ollama fungerar utmärkt på “bare metal”. Det blir ännu mer intressant när du behandlar det som en tjänst: en stabil slutpunkt, fastlagda versioner, beständig lagring och en GPU som antingen är tillgänglig eller inte.
HTTPS för Ollama utan att störa strömande svar.
Att köra Ollama bakom en omvänd proxy är det enklaste sättet att få HTTPS, valfri åtkontroll och förutsägbart strömmande beteende.
Servera öppna modeller snabbt med SGLang.
SGLang är ett högpresterande ramverk för servering av stora språkmodeller och multimodala modeller, byggt för att leverera inferens med låg latens och hög genomströmning över allt från en enda GPU till distribuerade kluster.
Byt lokala LLM:ar utan att ändra klienterna.
Snart kastar du mellan vLLM, llama.cpp och mer – varje stack på sin egen port. Allt nedströms vill fortfarande ha en enda bas-URL /v1; annars fortsätter du att shuffla med portar, profiler och skript för enskilda fall. llama-swap är /v1-proxyn som ligger framför dessa stackar.