LLM Performance

Benchmark LLM con 16 GB di VRAM tramite llama.cpp (velocità e contesto)

Ecco il confronto sulla velocità di diversi LLM eseguiti su una GPU con 16 GB di VRAM, con l’obiettivo di scegliere il migliore per l’auto-hosting.

Confronto delle prestazioni dei modelli LLM su Ollama su GPU con 16 GB di VRAM

Eseguire grandi modelli linguistici in locale ti offre privacy, capacità offline e zero costi API. Questo benchmark rivela esattamente cosa si può aspettare da 14 modelli popolari LLMs su Ollama su un RTX 4080.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama

Ho trovato alcuni interessanti test sulle prestazioni di GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio, e RTX 4080. Il modello GPT-OSS 120b dalla libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).

ASIC per LLM e chip specializzati per l'inferenza (e perché sono importanti)

Il futuro dell’AI non riguarda solo modelli più intelligenti. Riguarda anche il silicio che corrisponde al modo in cui questi modelli vengono effettivamente eseguiti. L’hardware specializzato per l’inference degli LLM sta seguendo una strada che ricorda il passaggio del mining di Bitcoin dalle GPU agli ASIC costruiti appositamente, sebbene con vincoli più stringenti perché modelli e schemi di precisione continuano a evolversi.

Ecco un confronto tra Qwen3:30b e GPT-OSS:20b che si concentra su seguito delle istruzioni e parametri di prestazione, specifiche e velocità.

Problemi di Output Strutturato di Ollama GPT-OSS

Ollama’s GPT-OSS models presentano frequenti problemi nel gestire l’output strutturato, specialmente quando vengono utilizzate con framework come LangChain, OpenAI SDK, vllm e altri.

Allocazione della memoria e pianificazione del modello nella nuova versione di Ollama - v0.12.1

Ecco che confronto quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.

Prestazioni degli LLM e canali PCIe: considerazioni chiave

Come le lane PCIe influenzano le prestazioni degli LLM? Dipende dal compito. Per l’addestramento e l’inferenza multi-GPU, la riduzione delle prestazioni è significativa.

Test: Come Ollama utilizza le prestazioni della CPU Intel e i core efficienti

Ho un’ipotesi da testare: se utilizzare TUTTI i core su un processore Intel aumenterebbe la velocità degli LLM? Mi sta infastidendo il fatto che il nuovo modello gemma3 27 bit (gemma3:27b, 17 GB su ollama) non si adatti ai 16 GB di VRAM della mia GPU, e venga eseguito parzialmente sul CPU.

Confronto della idoneità delle GPU NVidia per l'AI

Nel mezzo del caos del mondo moderno qui sto confrontando le specifiche tecniche di diverse schede adatte a compiti legati all’AI (Deep Learning, Rilevamento Oggetti e LLMs). Sono però tutte incredibilmente costose.

Come Ollama gestisce le richieste parallele

Quando il server Ollama riceve due richieste contemporaneamente, il suo comportamento dipende dalla sua configurazione e dalle risorse del sistema disponibili.

Non molto tempo fa è stato rilasciato. Veniamo al punto e testiamo come si comporta Mistral Small rispetto ad altri LLM.

Recentemente abbiamo visto l’uscita di diversi nuovi LLM. Tempi eccitanti. Proviamo a testarli e a vedere come si comportano nel rilevare le fallacie logiche.

Confronto delle capacità di sintesi degli LLM

Testare come si comportano i modelli con diverso numero di parametri e quantizzazione.

Confronto della velocità di previsione di diverse versioni degli LLM (Large Language Models): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) su CPU e GPU.

LLM Performance

Benchmark LLM con 16 GB di VRAM tramite llama.cpp (velocità e contesto)

Confronto delle prestazioni dei modelli LLM su Ollama su GPU con 16 GB di VRAM

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama

ASIC per LLM e chip specializzati per l'inferenza (e perché sono importanti)

Confronto: Qwen3:30b vs GPT-OSS:20b

Problemi di Output Strutturato di Ollama GPT-OSS

Allocazione della memoria e pianificazione del modello nella nuova versione di Ollama - v0.12.1

Prestazioni degli LLM e canali PCIe: considerazioni chiave

Test: Come Ollama utilizza le prestazioni della CPU Intel e i core efficienti

Confronto della idoneità delle GPU NVidia per l'AI

Come Ollama gestisce le richieste parallele

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Test con LLM

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Confronto delle capacità di sintesi degli LLM

Test di velocità dei modelli linguistici di grandi dimensioni