Rost Glukhov | Personlig webbplats och teknisk blogg

Llama.swap Modellväxlar – Snabbstart för lokala, OpenAI-kompatibla LLM:ar

Snart kastar du mellan vLLM, llama.cpp och mer – varje stack på sin egen port. Allt nedströms vill fortfarande ha en enda bas-URL /v1; annars fortsätter du att shuffla med portar, profiler och skript för enskilda fall. llama-swap är /v1-proxyn som ligger framför dessa stackar.

Apache Kafka Snabbstart – Installera Kafka 4.2 med CLI och lokala exempel

Apache Kafka 4.2.0 är den aktuella supportade utgåvelinjen, och den utgör den bästa basen för ett modernt snabbstartsguide eftersom Kafka 4.x är helt utan ZooKeeper och bygger på KRaft som standard.

Oh My Opencode-granskning: Ärliga resultat, faktureringsrisker och när det är värt det

Oh My Opencode lovar om ett “virtuellt AI-utvecklingsteam” — där Sisyphus dirigerar specialister, uppgifter körs parallellt och magiska nyckelordet ultrawork aktiverar allt.

Oh My Opencode Snabbstart för OpenCode: Installera, Konfigurera och Kör

Oh My Opencode gör OpenCode till en multi-agent kodningsplattform: en orkestrator delegerar arbete till specialiserade agenter som kör parallellt.

Bästa LLM:er för OpenCode – från Gemma 4 till Qwen 3.6, testat lokalt

Jag har testat hur OpenCode fungerar med flera lokalt värdade LLM från Ollama och llama.cpp, och för jämförelse har jag även inkluderat några gratismodeller från OpenCode Zen.

En djupdykning och modellguide för Oh My Opencode:s specialiserade agenter

Det största kapacitetsspranget i OpenCode kommer från specialiserade agenter: en medveten separering av orkestrering, planering, exekvering och forskning.

OpenHands Coding Assistant – Snabbstart: Installation, CLI-flaggor och exempel

OpenHands är en öppen källkodsplattform som är modellagnostisk för AI-drivna agenter för mjukvaruutveckling. Den låter en agent bete sig mer som en kodpartner än ett enkelt verktyg för automatisk komplettering.

LocalAI QuickStart: Kör OpenAI-kompatibla LLMs lokalt

LocalAI är en självhostad, lokal-först inferensserver designad för att bete sig som en drop-in OpenAI API för att köra AI-arbetsbelastningar på din egen hårdvara (bärbar dator, arbetsstation eller on-prem-server).

llama.cpp: Snabbstart med CLI och server

Jag återvänder alltid till llama.cpp för lokal inferens – det ger dig kontroll som Ollama och andra abstraherar bort, och det fungerar helt enkelt. Det är enkelt att köra GGUF-modeller interaktivt med llama-cli eller exponera en OpenAI-kompatibel HTTP-API med llama-server.

OpenCode snabbstart: Installera, konfigurera och använd terminalbaserade AI-kodningsagenter

OpenCode är en öppen källkod AI-kodningsagent som du kan köra i terminalen (TUI + CLI) med valbara gränssnitt för skrivbordet och IDE. Detta är OpenCode Snabbspår: installera, verifiera, koppla en modell/leverantör och kör verkliga arbetsflöden (CLI + API).

Airtable för utvecklare och DevOps - Planer, API, Webhooks och Go/Python-exempel

Airtable är bäst att tänka på som en lågkodningsplattform för applikationer, byggd runt en samarbetsbar “databasliknande” kalkylbladssnitt - utmärkt för snabbt att skapa operativa verktyg (inre spårare, lättviktiga CRM:er, innehållspipelines, AI-bedömningsköer) där icke-utvecklare behöver ett vänligt gränssnitt, men utvecklare också behöver en API-yta för automatisering och integration.

Övervakning av LLM-inferens i produktion (2026): Prometheus & Grafana för vLLM, TGI och llama.cpp

LLM-inferens ser ut som “en API till” – fram till dess att latens toppar, köer backar upp och dina GPU:er sitter på 95 % minnesanvändning utan någon uppenbar förklaring.

OpenClaw: En granskning av en självhyst AI-assistent som ett verkligt system

De flesta lokala AI-uppställningar börjar på samma sätt: en modell, en runtime och ett chattgränssnitt.

OpenClaw-quickstart: Installera med Docker (Ollama GPU eller Claude + CPU)

OpenClaw är en självhyst AI-assistant designad för att köras med lokala LLM-runtime som Ollama eller med molnbaserade modeller som Claude Sonnet.

Garage vs MinIO vs AWS S3: Objektlagringssjälvständighet och funktioneröverensstämmande

AWS S3 är fortfarande den “standard” som används som bas för objektlagring: det är fullt hanterat, starkt konsistent och utformat för extremt hög hållbarhet och tillgänglighet.
Garage och MinIO är självvärdbar, S3-kompatibel alternativ: Garage är utformad för lättviktiga, geodistribuerade små- till medelstora kluster, medan MinIO betonar bred S3 API-funktionsskydd och hög prestanda i större distributioner.

Implementera Workflow-applikationer med Temporal i Go: En komplett guide

Temporal är en öppen källkod, enterprise-nivå arbetsflödesmotor som gör det möjligt för utvecklare att bygga hållbara, skalerbara och feltoleranta arbetsflödesprogram med hjälp av bekanta programmeringsspråk som Go.

Prenumerera