Avladda alla llama.cpp-routermodeller utan att starta om

Avladda alla llama.cpp-routermodeller utan att starta om

Frigör VRAM utan att stoppa llama-server.

Routerläge för llama.cpp är en av de mest användbara förändringarna i llama-server på flera år. Det ger slutligen lokala aktörer av LLM (Large Language Models) något som liknar modellhanteringsupplevelsen som man förväntar sig från Ollama, samtidigt som det behåller den råa prestanda och den lågnivåkontroll som gör llama.cpp värd att använda i första hand.

Retrival kontra representation i kunskapssystem

Retrival kontra representation i kunskapssystem

Sök är inte kunskapsstruktur

De flesta moderna kunskapssystem optimerar hämtning (retrieval), och det är förståeligt. Sök är synligt, lätt att demonstrera och känns magiskt när det fungerar. Skriv en fråga, få ett svar.

Andra hjärnan förklarad för ingenjörer och kunskapsarbetare

Andra hjärnan förklarad för ingenjörer och kunskapsarbetare

Anteckningar är lagring. Ett andra hjärna är beräkning.

Informationsöverbelastning handlar mindre om ren volym än om olösta indata. Modern kunskapsarbete lämnar en spår av flikar, chatttrådar, dokument, markeringar, kodbitar, transkript, skärmdumpar och halvfärdiga anteckningar.

Validering av strukturerad output från LLM:er i Python som håller

Validering av strukturerad output från LLM:er i Python som håller

Sluta tolka stämningar. Validera kontrakt.

De flesta tutorials om “strukturerad utdata” från stora språkmodeller (LLM) är oseriösa. De lägger upp det som att du ska be artigt om JSON och sedan hoppas att modellen beter sig. Det är inte validering. Det är optimisme med klammermärken.

Idempotens i distribuerade system som faktiskt fungerar

Idempotens i distribuerade system som faktiskt fungerar

Stoppa dubbla sideffekter

Idempotens i distribuerade system är den egenskap som räddar dig när nätverket ljuger, köen gör om försöket, klienten paniker och operatören spelar upp om händelser. I produktionssystem är dubbel leverans normalt. Dubbla biverkningar är buggen.

Att skapa Hermes-agentkompetenser — Struktur och bästa praxis för SKILL.md

Att skapa Hermes-agentkompetenser — Struktur och bästa praxis för SKILL.md

Författar färdigheter för Hermes som laddar snabbt och fungerar pålitligt

Hermes Agent behandlar färdigheter (skills) som det vanliga sättet att lära ut återanvändbara arbetsflöden. Officiell dokumentation beskriver dem som kunskapsdokument på begäran, anpassade efter den öppna agentskills.io-specifikationen, och de laddas genom progressiv diskling (progressive disclosure) så att modellen först ser en liten index och endast hämtar fullständiga instruktioner när en uppgift faktiskt kräver dem.

Prenumerera

Få nya inlägg om system, infrastruktur och AI-ingenjörskonst.