Performance
Hugo Cachestrategier för Prestanda
Optimera utveckling och körning av Hugo-webbplatser
Hugo cachestrategier är avgörande för att maximera prestandan för din statiska webbplatsgenerator. Medan Hugo genererar statiska filer som är inbyggt snabba, kan implementeringen av rätt cachning på flera nivåer dramatiskt förbättra byggtider, minska serverbelastningen och förbättra användarupplevelsen.
NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse
GPT-OSS 120b-benchmärkningar på tre AI-plattformar
Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).
Ollama GPT-OSS Strukturerade utgångsproblem
Ingenstans särskilt fin.
Ollama’s GPT-OSS modeller har återkommande problem med att hantera strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.
Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1
Min egen test av ollama-modellplanering
Här jämför jag hur mycket VRAM den nya versionen av Ollama allokerar för modellen hur mycket VRAM den nya versionen av Ollama allokerar för modellen med den tidigare versionen av Ollama. Den nya versionen är sämre.
LLM-prestanda och PCIe-lan: Viktiga överväganden
Tänker du på att installera en andra GPU för LLM:er?
Hur påverkar PCIe-laner LLM-prestanda? Beroende på uppgiften. För träning och fler-GPU-inferens – prestandaförändringen är betydande.
Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor
Ollama på Intel CPU: Effektivitet vs prestandaenheter
Jag har en teori att testa – om man använder alla kärnor på Intel CPU skulle det öka hastigheten hos LLMs? Det är irriterande att den nya gemma3 27-bit model (gemma3:27b, 17GB på ollama) inte passar in i min GPU:s 16GB VRAM och delvis kör på CPU.
Hur Ollama hanterar parallella begäranden
Konfigurera ollama för parallell exekvering av begäranden.
När Ollama-servern får två begäranden samtidigt, beror dess beteende på dess konfiguration och tillgängliga systemresurser.
Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - LLM-test
Nästa omgång av LLM-testerna
Inte för länge sedan släpptes. Låt oss uppdatera och
testa hur Mistral Small presterar jämfört med andra LLMs.
Hastighetstest för stora språkmodeller
Låt oss testa LLM:s hastighet på GPU jämfört med CPU
Jämförelse av förutsägelsehastighet hos flera versioner av LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) på CPU och GPU.