Chunking è il parametro iperparametrico più sottovalutato nel Retrieval ‑ Augmented Generation (RAG):
determina in silenzio ciò che il tuo LLM “vede”,
quanto diventa costosa l’ingestione,
e quanto del contesto dell’LLM bruci per ogni risposta.
L’hosting self-hosted di LLM mantiene i dati, i modelli e l’inferenza sotto il tuo controllo: un percorso pratico verso sovrainità AI per team, aziende e nazioni.
Test della velocità del modello LLM sull'RTX 4080 con 16 GB di VRAM
Eseguire grandi modelli linguistici in locale ti offre privacy, capacità offline e zero costi API.
Questo benchmark rivela esattamente cosa si può aspettare da 14 modelli popolari
LLMs su Ollama su un RTX 4080.
Oggi ci concentriamo sui GPU per consumatori di alto livello e sui moduli di RAM.
Specificamente sto esaminando
prezzi RTX-5080 e RTX-5090, e 32GB (2x16GB) DDR5 6000.
Dopo l’installazione automatica di un nuovo kernel, Ubuntu 24.04 ha perso la connessione Ethernet. Questo problema frustrante è successo nuovamente a me, quindi sto documentando la soluzione qui per aiutare gli altri che affrontano lo stesso problema.
I prezzi della RAM aumentano del 163-619% a causa della domanda di AI che mette a dura prova l'offerta
Il mercato della memoria sta vivendo una volatilità dei prezzi senza precedenti alla fine del 2025, con un aumento drammatico dei prezzi della RAM su tutti i segmenti: prezzi della RAM in aumento.
Prezzi delle GPU per consumatori adatte all'AI - RTX 5080 e RTX 5090
Confrontiamo i prezzi delle GPU per consumatori di alto livello, che sono particolarmente adatte per i modelli linguistici (LLM) e in generale per l’intelligenza artificiale (AI).
Specificamente sto guardando a
prezzi RTX-5080 e RTX-5090.
Distribuisci l'AI aziendale su hardware a basso costo con modelli open source
La democratizzazione dell’AI è arrivata.
Con modelli open source come Llama 3, Mixtral e Qwen che ora competono con i modelli proprietari, i team possono costruire potenti infrastrutture AI utilizzando hardware consumer - riducendo i costi mentre mantengono il pieno controllo sulla privacy dei dati e sull’implementazione.
Ho trovato alcuni interessanti test sulle prestazioni di GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio, e RTX 4080. Il modello GPT-OSS 120b dalla libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).
Riferimento rapido per i comandi di Docker Model Runner
Docker Model Runner (DMR) è la soluzione ufficiale di Docker per eseguire modelli AI localmente, introdotta nel aprile 2025. Questo foglio di riferimento fornisce un rapido riferimento per tutti i comandi essenziali, le configurazioni e le best practice.