16 GB VRAM LLM-benchmarks med llama.cpp (hastighet och kontext)
Tokenhastighet för llama.cpp på 16 GB VRAM (tabeller).
Här jämför jag hastigheten för flera LLM-modeller som körts på en GPU med 16 GB VRAM och väljer den bästa för självhostning.
Tokenhastighet för llama.cpp på 16 GB VRAM (tabeller).
Här jämför jag hastigheten för flera LLM-modeller som körts på en GPU med 16 GB VRAM och väljer den bästa för självhostning.
RTX 5090 är svår att få tag på i Australien och prisbelagd för högt.
Australien har lagervaror av RTX 5090. Knappast. Och om du hittar en, kommer du att betala en premie som känns frånkopplad från verkligheten.
Ollama-server med komposition i förgrunden, GPU och uthållighet.
Ollama fungerar utmärkt på “bare metal”. Det blir ännu mer intressant när du behandlar det som en tjänst: en stabil slutpunkt, fastlagda versioner, beständig lagring och en GPU som antingen är tillgänglig eller inte.
LLM-hastighetstest på RTX 4080 med 16 GB VRAM
Att köra stora språkmodeller lokalt ger dig integritet, möjlighet att använda dem offline och noll kostnader för API:er. Detta benchmark visar exakt vad man kan förvänta sig från 14 populära LLMs på Ollama på en RTX 4080.
Välj rätt terminal för din Linux-arbetsflöde
En av de viktigaste verktygen för Linux-användare är terminalsimulatorer.
Verkliga AUD-priser från australiska återförsäljare nu
NVIDIA DGX Spark (https://www.glukhov.org/sv/hardware/ai/nvidia-dgx-spark/ “NVIDIA DGX Spark - liten AI-superdator”) (GB10 Grace Blackwell) är nu tillgänglig i Australien (https://www.glukhov.org/sv/hardware/ai/dgx-spark-pricing-in-australia/ “DGX Spark i Australien”) hos större datorhandlare med lokalt lager. Om du har följt globala priser och tillgänglighet för DGX Spark, är du kanske intresserad av att veta att priserna i Australien ligger mellan 6 249 och 7 999 AUD beroende på lagringskonfiguration och återförsäljare.
Priser på AI-lämpliga konsument-GPU:er – RTX 5080 och RTX 5090
Låt oss jämföra priser för toppmodeller av konsument-GPU:er, som är särskilt lämpade för LLM och AI i allmänhet. Specifikt tittar jag på priser för RTX-5080 och RTX-5090.
Förena text, bilder och ljud i gemensamma inbäddningsutrymmen
Korsmodal inbäddning representerar en genombrottsteknik inom artificiell intelligens, som möjliggör förståelse och resonemang över olika datatyper inom ett gemensamt representationsutrymme.
Implementera företags AI på budgetmaskinvaru med öppna modeller.
Demokratiseringen av AI är här. Med öppna källkodsmodeller som Llama, Mistral och Qwen som nu är jämbördiga med proprietära modeller, kan team bygga kraftfull AI-infrastruktur med konsumenthårdvara – vilket sänker kostnaderna kraftigt samtidigt som man behåller full kontroll över dataprivacy och implementering.
Konfigurera kontextstorlekar i Docker Model Runner med arbarkringar
Konfigurera kontextstorlek i Docker Model Runner är mer komplex än det borde vara.
AI-modell för att augmentera bilder med textinstruktioner
Black Forest Labs har släppt FLUX.1-Kontext-dev, en avancerad bild-till-bild AI-modell som förstärker befintliga bilder med hjälp av textinstruktioner.
Aktivera GPU-accelerering för Docker Model Runner med stöd för NVIDIA CUDA
Docker Model Runner är Docks officiella verktyg för att köra AI-modeller lokalt, men aktivera NVidia GPU-acceleration i Docker Model Runner kräver specifik konfiguration.
GPT-OSS 120b-benchmärkningar på tre AI-plattformar
Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).
Snabbreferens för Docker Model Runner-kommandon
Docker Model Runner (DMR) är Docks officiella lösning för att köra AI-modeller lokalt, introducerad i april 2025. Den här cheatsheten ger en snabb referens för alla viktiga kommandon, konfigurationer och bästa praxis.
Jämför Docker Model Runner och Ollama för lokal LLM
Att köra stora språkmodeller (LLMs) lokalt har blivit alltmer populärt för skydd av integritet, kostnadsstyrning och möjlighet att använda modeller offline. Landskapet förändrades betydligt i april 2025 när Docker introducerade Docker Model Runner (DMR), sin officiella lösning för distribution av AI-modeller.
Tillgänglighet, faktiska butikspriser i sex länder och jämförelse med Mac Studio.
NVIDIA DGX Spark är en realitet, till salu 15 oktober 2025, och riktar sig mot CUDA-utvecklare som behöver lokal LLM-arbete med en integrerad NVIDIA AI-stack. US MSRP $3 999; UK/DE/JP-pris är högre på grund av moms och kanal. AUD/KRW-priser är ännu inte allmänt postade.