LLM Hosting

Quickstart di llama.cpp con CLI e Server

Torno sempre a llama.cpp per l’inferenza locale — ti dà il controllo che Ollama e altri astraggono, e funziona semplicemente. È facile eseguire interattivamente i modelli GGUF con llama-cli o esporre un’API HTTP OpenAI-compatibile con llama-server.

L’hosting self-hosted di LLM mantiene i dati, i modelli e l’inferenza sotto il tuo controllo: un percorso pratico verso sovrainità AI per team, aziende e nazioni.

Open WebUI: interfaccia self-hosted per LLM

Open WebUI è una potente, estensibile e ricca di funzionalità interfaccia web autoospitata per interagire con i grandi modelli linguistici.

vLLM è un motore di inferenza e servizio ad alta capacità e ad alta efficienza di memoria per i Large Language Models (LLM) sviluppato dal Sky Computing Lab dell’Università di Berkeley.

Scegliere il giusto LLM per Cognee: Configurazione locale di Ollama

Scegliere il miglior LLM per Cognee richiede di bilanciare la qualità della costruzione del grafo, i tassi di allucinazione e i vincoli hardware. Cognee eccelle con modelli più grandi a bassa allucinazione (32B+) tramite Ollama ma le opzioni di dimensioni medio-piccole funzionano per le configurazioni più leggere.

Ollama vs vLLM vs LM Studio: il miglior modo per eseguire LLM localmente nel 2026?

Eseguire i modelli LLM localmente è ora pratico per sviluppatori, startup e persino team aziendali.
Ma scegliere lo strumento giusto — Ollama, vLLM, LM Studio, LocalAI o altri — dipende dagli obiettivi:

Docker Model Runner: Guida alla configurazione della dimensione del contesto

Configurazione delle dimensioni del contesto in Docker Model Runner è più complessa di quanto dovrebbe essere.

Aggiungere il supporto per GPU NVIDIA a Docker Model Runner

Docker Model Runner è lo strumento ufficiale di Docker per eseguire modelli AI in locale, ma abilitare l’accelerazione GPU di NVidia in Docker Model Runner richiede una configurazione specifica.

Docker Model Runner Cheatsheet: Comandi & Esempi

Docker Model Runner (DMR) è la soluzione ufficiale di Docker per eseguire modelli AI localmente, introdotta nel aprile 2025. Questo foglio di riferimento fornisce un rapido riferimento per tutti i comandi essenziali, le configurazioni e le best practice.

Docker Model Runner vs Ollama (2026): Qual è il migliore per i modelli LLM locali?

Running large language models (LLMs) locally ha guadagnato popolarità per la privacy, il controllo dei costi e le capacità offline. Il panorama si è notevolmente modificato nel aprile 2025 quando Docker ha introdotto Docker Model Runner (DMR), la sua soluzione ufficiale per il deployment di modelli AI.

Client Go per Ollama: confronto tra SDK e esempi con Qwen3/GPT-OSS

Questo documento fornisce un’overview completa degli SDK Go per Ollama disponibili e confronta i loro set di funzionalità.

Integrare Ollama con Python: esempi di API REST e client Python

In questo post, esploreremo due modi per connettere la tua applicazione Python a Ollama: 1. Attraverso l’HTTP REST API; 2. Attraverso la libreria ufficiale Python di Ollama.

Enshittification di Ollama - I primi segnali

Ollama ha rapidamente diventato uno degli strumenti più popolari per eseguire i modelli LLM localmente. La sua semplice CLI e la gestione semplificata dei modelli l’hanno resa un’opzione di riferimento per gli sviluppatori che desiderano lavorare con i modelli AI al di fuori del cloud.

Interfacce di chat per istanze locali di Ollama

Locally hosted Ollama consente di eseguire modelli linguistici di grandi dimensioni sul proprio computer, ma l’utilizzo tramite riga di comando non è particolarmente utente-friendly. Ecco diversi progetti open-source che forniscono interfacce simili a ChatGPT che si connettono a un Ollama locale.

Confronto della qualità della traduzione delle pagine di Hugo - LLM su Ollama

In questo test sto confrontando come diversi LLM ospitati su Ollama traducono una pagina Hugo dall’inglese al tedesco.

L’uso degli LLM non è molto costoso, potrebbe non esserci bisogno di acquistare un nuovo GPU fantastico. Ecco un elenco se LLM provider in the cloud con gli LLM che ospitano.

LLM Hosting

Quickstart di llama.cpp con CLI e Server

Autoservizio di LLM e Sovranità dell'AI

Open WebUI: interfaccia self-hosted per LLM

vLLM Quickstart: Servizio LLM ad alte prestazioni - nel 2026

Scegliere il giusto LLM per Cognee: Configurazione locale di Ollama

Ollama vs vLLM vs LM Studio: il miglior modo per eseguire LLM localmente nel 2026?

Docker Model Runner: Guida alla configurazione della dimensione del contesto

Aggiungere il supporto per GPU NVIDIA a Docker Model Runner

Docker Model Runner Cheatsheet: Comandi & Esempi

Docker Model Runner vs Ollama (2026): Qual è il migliore per i modelli LLM locali?

Client Go per Ollama: confronto tra SDK e esempi con Qwen3/GPT-OSS

Integrare Ollama con Python: esempi di API REST e client Python

Enshittification di Ollama - I primi segnali

Interfacce di chat per istanze locali di Ollama

Confronto della qualità della traduzione delle pagine di Hugo - LLM su Ollama

Fornitori di LLM cloud