L’hosting self-hosted di LLM mantiene i dati, i modelli e l’inferenza sotto il tuo controllo: un percorso pratico verso sovrainità AI per team, aziende e nazioni.
Test della velocità del modello LLM sull'RTX 4080 con 16 GB di VRAM
Eseguire grandi modelli linguistici in locale ti offre privacy, capacità offline e zero costi API.
Questo benchmark rivela esattamente cosa si può aspettare da 14 modelli popolari
LLMs su Ollama su un RTX 4080.
Oggi ci concentriamo sui GPU per consumatori di alto livello e sui moduli di RAM.
Specificamente sto esaminando
prezzi RTX-5080 e RTX-5090, e 32GB (2x16GB) DDR5 6000.
Dopo l’installazione automatica di un nuovo kernel, Ubuntu 24.04 ha perso la connessione Ethernet. Questo problema frustrante è successo nuovamente a me, quindi sto documentando la soluzione qui per aiutare gli altri che affrontano lo stesso problema.
I prezzi della RAM schizzano del 163-619% mentre la domanda di AI mette sotto pressione l'offerta.
Il mercato della memoria sta vivendo una volatilità dei prezzi senza precedenti alla fine del 2025, con i prezzi della RAM in forte aumento che si stanno verificando drammaticamente in tutti i segmenti.
Prezzi delle GPU consumer adatte all'AI - RTX 5080 e RTX 5090
Confrontiamo i prezzi per le GPU consumer di fascia alta, in particolare quelle adatte per le LLM e per l’IA in generale.
Nello specifico, sto esaminando i prezzi di RTX-5080 e RTX-5090.
Distribuisci l'AI enterprise su hardware economico con modelli open source.
La democratizzazione dell’IA è qui.
Con LLM open-source come Llama, Mistral e Qwen che ora competono con i modelli proprietari, i team possono costruire potenti infrastrutture AI utilizzando hardware consumer - riducendo drasticamente i costi mantenendo il controllo totale sulla privacy dei dati e sul deployment.
Ho trovato alcuni interessanti test sulle prestazioni di GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio, e RTX 4080. Il modello GPT-OSS 120b dalla libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).