16 GB VRAM LLM-benchmarks med llama.cpp (hastighet och kontext)
Tokenhastighet för llama.cpp på 16 GB VRAM (tabeller).
Här jämför jag hastigheten för flera LLM-modeller som körts på en GPU med 16 GB VRAM och väljer den bästa för självhostning.
Tokenhastighet för llama.cpp på 16 GB VRAM (tabeller).
Här jämför jag hastigheten för flera LLM-modeller som körts på en GPU med 16 GB VRAM och väljer den bästa för självhostning.
RTX 5090 är svår att få tag på i Australien och prisbelagd för högt.
Australien har lagervaror av RTX 5090. Knappast. Och om du hittar en, kommer du att betala en premie som känns frånkopplad från verkligheten.
Styra data och modeller med självvärddade LLM:er
Self-hosting av LLM:er håller data, modeller och inferens under din kontroll – en praktisk väg till AI-soveränitet för team, företag och nationer.
LLM-hastighetstest på RTX 4080 med 16 GB VRAM
Att köra stora språkmodeller lokalt ger dig integritet, möjlighet att använda dem offline och noll kostnader för API:er. Detta benchmark visar exakt vad man kan förvänta sig från 14 populära LLMs på Ollama på en RTX 4080.
Januari 2025 GPU- och RAM-prischeck
Idag tittar vi på de högsta nivåerna av konsumentspelkort och RAM-moduler. Specifikt tittar jag på RTX-5080 och RTX-5090-priser, och 32GB (2x16GB) DDR5 6000.
Välj rätt terminal för din Linux-arbetsflöde
En av de viktigaste verktygen för Linux-användare är terminalsimulatorer.
Verkliga AUD-priser från australiska återförsäljare nu
NVIDIA DGX Spark (https://www.glukhov.org/sv/hardware/ai/nvidia-dgx-spark/ “NVIDIA DGX Spark - liten AI-superdator”) (GB10 Grace Blackwell) är nu tillgänglig i Australien (https://www.glukhov.org/sv/hardware/ai/dgx-spark-pricing-in-australia/ “DGX Spark i Australien”) hos större datorhandlare med lokalt lager. Om du har följt globala priser och tillgänglighet för DGX Spark, är du kanske intresserad av att veta att priserna i Australien ligger mellan 6 249 och 7 999 AUD beroende på lagringskonfiguration och återförsäljare.
Testa Cognee med lokala LLMs - verkliga resultat
Cognee är en Pythonramverk för att bygga kunskapsgrafer från dokument med hjälp av LLMs. Men fungerar det med självvärdbaserade modeller?
Hur jag löste nätverksproblem i Ubuntu
Efter att ha installerat en ny kernel automatiskt, har Ubuntu 24.04 förlorat ethernetnätverket. Detta frustrerande problem uppstod för mig en andra gång, så jag dokumenterar lösningen här för att hjälpa andra som stöter på samma problem.
Kort inlägg, noterar bara priset.
Med denna galna volatilitet i RAM-priser, för att bilda oss en bättre uppfattning, låt oss först spåra RAM-priset i Australien själva.
RAM-priser ökar med 163–619 % efterfrågan från AI-branschen belastar utbudet.
Minnesmarknaden upplever en utanförskild prissvängning sent 2025, där RAM-priser stiger dramatiskt över alla segment.
Priser på AI-lämpliga konsument-GPU:er – RTX 5080 och RTX 5090
Låt oss jämföra priser för toppmodeller av konsument-GPU:er, som är särskilt lämpade för LLM och AI i allmänhet. Specifikt tittar jag på priser för RTX-5080 och RTX-5090.
Implementera företags AI på budgetmaskinvaru med öppna modeller.
Demokratiseringen av AI är här. Med öppna källkodsmodeller som Llama, Mistral och Qwen som nu är jämbördiga med proprietära modeller, kan team bygga kraftfull AI-infrastruktur med konsumenthårdvara – vilket sänker kostnaderna kraftigt samtidigt som man behåller full kontroll över dataprivacy och implementering.
Aktivera GPU-accelerering för Docker Model Runner med stöd för NVIDIA CUDA
Docker Model Runner är Docks officiella verktyg för att köra AI-modeller lokalt, men aktivera NVidia GPU-acceleration i Docker Model Runner kräver specifik konfiguration.
GPT-OSS 120b-benchmärkningar på tre AI-plattformar
Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).