LLM - Rost Glukhov | Personlig webbplats och teknisk blogg

LLM Wiki-underhåll: Drift, motsägelsefullheter och granskning

En LLM-wiki misslycks när gamla fakta fortfarande verkar plausibla, motsägelser blir polerade och genererade sammanfattningar drar iväg från sina källor.

GPU:er för AI 2026: NVIDIA, AMD och Intel jämförda

AI-hårdvarulandskapet har förändrats avsevärt 2026, med NVIDIA, AMD och Intel som alla tävlar om utvecklare som behöver GPU:er som kan köra lokala stora språkmodeller (LLM) och AI-inferensarbetsbelastningar.

Säkerhet för A2A- och MCP-agenter: Identitet, delegering och granskningsloggar

Promptinjection får mest av säkerhetsuppmärksamheten i LLM-system, och den förtjänar uppmärksamhet, men den är inte hela problemet när agenter börjar anropa verktyg och delegera arbete till andra agenter.

De flesta AI-agentdemonstrationer beter sig fortfarande som chattkompletteringar med extra steg: du skickar en prompt, väntar några sekunder och får ett svar tillbaka i ett enda svar.

Spekulativ dekodering: 20–50 % snabbare LLM-inferens

Ett modell med 70 miljarder parametrar (70B) genererar en token per framåtriktad passering (forward pass), och vid varje passering laddas vikterna in från VRAM, uppmärksamheten beräknas över kontexten och minnet synkroniseras. Mellan tokenerna sitter GPU:n idle medan den väntar på att sekventiella beroenden ska lösas.

Vad är specdriven utveckling? Specen som sanningens källa

Specdriven utveckling är en av de idéer som mjukvarutekniker har vänt sig till tidigare och sedan lagt åt sidan när insatsen inte längre gav avkastning.

Spec-driven development vs. vibe coding: Vattenfall?

Spec-driven development (SDD) inledde 2026 som det seriösa alternativet för utvecklare som ville motverka drift i “vibe coding”.

Google A2A-protokollet 2026: Adoption, hype och verklighet

Googles Agent2Agent-protokoll, oftast förkortat till A2A, hade ett märkligt första år.

Agenter för polling i AI-assistenter: 11 implementeringsmönster

Pollningagenter är en av de minst glamourösa delarna av arkitekturen för AI-assistenter, men de är också en av de mest användbara.

A2A vs MCP: Behöver AI-agenter verkligen båda protokollen?

Arkitekturen för AI-agenter börjar delas upp i två lager.

Vad är A2A-protokollet? Agent Cards och Tasks förklarade

A2A-protokollet, förkortning för Agent2Agent Protocol, är en öppen standard för kommunikation mellan oberoende AI-agent-system.

LLM-arkitektur: Systemdesign för produktionsbered AI

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

Kostnadsminimering för LLM-system: Vart pengarna verkligen går

Kostnader för stora språkmodeller (LLM) ökar linjärt med användningen. Ett system som bearbetar 10 000 förfrågningar per dag till $0,01 per förfrågan kostar $100 dagligen – vilket innebär $365 per år. I enterprise-skala blir det mer än $10 000.

LLM-vägledare i praktiken: Vad som faktiskt fungerar

LLM:er är opålitliga. De hallucinerar, läcker data, genererar skadligt innehåll eller vägrar legitima begäran. Vindskydd begränsar modellens beteende utan att offra kapacitet.

Modellruttning: Sluta använda en modell för allt

Att köra en modell med 70 miljarder parametrar för att sammanfatta ett 200-ord långt e-postmeddelande är slöseri. Att köra en 3-miljarders modell för att granskas produktionskod är slarvigt. De flesta system hamnar någonstans emellan — och det är här modellruttning kommer in i bilden.

Systemdesign med flera modeller: När en modell inte räcker

Enkelmodellsystem är enkla. Multimodellsystem är kraftfulla. Utmaningen ligger inte i att välja modeller, utan i att designa arkitekturen som dirigerar dem.