LLM - Page 2 - Rost Glukhov | Personlig webbplats och teknisk blogg

Llama-Server Router-läge – Dynamisk modellbyte utan omstart

I en längre tid hade llama.cpp en påtaglig begränsning:
du kunde bara servera en modell per process, och att byta krävde en omstart.

Claude-färdigheter och SKILL.md för utvecklare: VS Code, JetBrains, Cursor

De flesta team missbrukar Claude Skills på ett av två sätt. De antingen gör SKILL.md till en soptipp, eller så kliver de aldrig upp från att kopiera och klistra in jättelika promptar.

Hermes AI-assistents färdigheter för produktionsmiljöer

Hermes AI-assistent, officiellt dokumenterad som Hermes Agent, är inte positionerad som en enkel chattinpackning.

OpenClaw-färdighetsekosystemet och praktiska produktionsrekommendationer

OpenClaw har två olika sätt att utöka funktionerna på, och det är lätt att blanda ihop dem.

Plugins utökar runtime-miljön. Skills utökar agentens beteende.

OpenClaw-plugins — Översikt över ekosystemet och praktiska val

Den här artikeln handlar om OpenClaw-tillägg — inbyggda gateway-paket som lägger till kanaler, modellleverantörer, verktyg, röstminne, media, webbsökning och andra runtime-ytor.

Mönster för produktionsmiljö för OpenClaw med plugin och färdigheter

OpenClaw ser enkelt ut i demonstrationer. I produktion blir det ett system.

Claude, OpenClaw och slutet på fast prisbildning för agenter

Den tysta luckan som drev en våg av agentexperiment är nu stängd.

Vane (Perplexica 2.0) – Snabbstart med Ollama och llama.cpp

Vane är en av de mer pragmatiska lösningarna inom området för “AI-sök med källhänvisningar”: ett självärbetet svarsmotor som blandar live-webbhämtning med lokala eller molnbaserade LLM:er, samtidigt som hela stacken hålls under din kontroll.

Installation och konfiguration av Claude Code för Ollama, llama.cpp samt prissättning

Claude Code är inte bara autocomplete med bättre marknadsföring. Det är ett agentic-kodverktyg: det läser din kodbas, redigerar filer, kör kommandon och integreras med dina utvecklingsverktyg.

Hermes AI-assistent – installation, konfiguration, arbetsflöden och felsökning

Hermes Agent är en självhostad, modellagnostisk AI-assistent som körs på en lokal maskin eller en lågkostnadsvirtuell server (VPS), fungerar via terminal- och meddelandegränssnitt och förbättras över tid genom att omvandla upprepade uppgifter till återanvändbara färdigheter.

TGI – Text Generation Inference – Installation, konfiguration och felsökning

Text Generation Inference (TGI) har en mycket specifik energi. Det är inte den nyaste killen på inferensgatan, men det är den som redan har lärt sig hur produktion bryts –

LLM-benckmark med 16 GB VRAM med llama.cpp (hastighet och kontext)

Här jämför jag hastigheten hos flera LLM:s (storspråkmodeller) som körs på GPU med 16 GB VRAM, och väljer den bästa för egen hosting.

RTX 5090 i Australien: Prissättning, lager och verkligheten i mars 2026

Australien har lagervaror av RTX 5090. Knappast. Och om du hittar en, kommer du att betala en premie som känns frånkopplad från verkligheten.

Fjärråtkomst till Ollama via Tailscale eller WireGuard utan publika portar.

Ollama är som mest lyckligt när det behandlas som en lokal daemon: CLI:n och dina appar pratar med en loopback HTTP-API, och resten av nätverket får aldrig veta att det finns.

Ollama i Docker Compose med GPU och bestående modelllagring

Ollama fungerar utmärkt på “bare metal”. Det blir ännu mer intressant när du behandlar det som en tjänst: en stabil slutpunkt, fastlagda versioner, beständig lagring och en GPU som antingen är tillgänglig eller inte.

Ollama bakom en omvänd proxy med Caddy eller Nginx för HTTPS-strömning

Att köra Ollama bakom en omvänd proxy är det enklaste sättet att få HTTPS, valfri åtkontroll och förutsägbart strömmande beteende.