LLM Hosting

Scarica tutti i modelli del router di llama.cpp senza riavviare

Modalità router di llama.cpp è uno dei cambiamenti più utili a llama-server degli ultimi anni. Fornisce finalmente agli operatori di LLM locali un’esperienza di gestione dei modelli vicina a quella che ci si aspetta da Ollama, mantenendo al contempo le prestazioni grezze e il controllo a basso livello che rendono llama.cpp meritevole di essere utilizzato in primo luogo.

Modalità Router di Llama-Server - Commutazione Dinamica dei Modelli senza Riavvii

Per molto tempo, llama.cpp presentava una limitazione evidente:
era possibile servire un solo modello per processo e il passaggio da uno all’altro richiedeva un riavvio.

Guida rapida per Vane (Perplexica 2.0) con Ollama e llama.cpp

Vane è una delle voci più pragmatiche nel settore della “ricerca AI con citazioni”: un motore di risposta ospitato autonomamente che combina il recupero live sul web con LLM locali o cloud, mantenendo l’intera stack sotto il tuo controllo.

TGI - Text Generation Inference - Installazione, Configurazione e Risoluzione dei Problemi

Text Generation Inference (TGI) ha un’energia molto specifica. Non è il più nuovo arrivato nella strada dell’inferenza, ma è quello che ha già imparato come la produzione si rompe -

Accesso remoto a Ollama tramite Tailscale o WireGuard, senza porte pubbliche.

Ollama è al suo meglio quando viene trattato come un demone locale: la CLI e le tue applicazioni comunicano con un’API HTTP su loopback, e il resto della rete non viene a sapere della sua esistenza.

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Ollama funziona egregiamente su hardware nudo (bare metal). Diventa ancora più interessante quando lo si tratta come un servizio: un endpoint stabile, versioni bloccate, archiviazione persistente e una GPU che è disponibile o non lo è.

Ollama dietro un reverse proxy con Caddy o Nginx per lo streaming HTTPS

Eseguire Ollama dietro un proxy inverso è il modo più semplice per ottenere HTTPS, un controllo degli accessi opzionale e un comportamento di streaming prevedibile.

Guida rapida a SGLang: installazione, configurazione e distribuzione di LLM tramite l'API OpenAI

SGLang è un framework di serving ad alte prestazioni per grandi modelli linguistici e modelli multimodali, progettato per fornire inferenza a bassa latenza e alto throughput in tutto, da una singola GPU a cluster distribuiti.

Guida introduttiva al Model Switcher di llama.swap per LLM locali compatibili con OpenAI

Presto ti troverai a gestire vLLM, llama.cpp e altro ancora, con ogni stack sul proprio porto. Tutto il downstream desidera comunque un URL base /v1; altrimenti continuerai a spostare porti, profili e script ad hoc. llama-swap è il proxy /v1 che precede questi stack.

LocalAI QuickStart: Esegui Localmente Modelli Linguistici Compatibili con OpenAI

LocalAI è un server di inferenza self-hosted e local-first progettato per comportarsi come un’API OpenAI plug-and-play per eseguire carichi di lavoro di IA sull’hardware proprio (laptop, workstation o server in locale).

Introduzione a llama.cpp con CLI e Server

Torno sempre su llama.cpp per l’inferenza locale: ti offre un controllo che Ollama e altri astraggono, e semplicemente funziona. È facile eseguire modelli GGUF in modo interattivo con llama-cli o esporre un’API HTTP compatibile con OpenAI con llama-server.

L’auto-ospedalizzazione degli LLM mantiene dati, modelli e inferenza sotto il tuo controllo: una via pratica per la sovranità dell’IA per team, imprese e nazioni.

Open WebUI: interfaccia self-hosted per LLM

Open WebUI è una potente, estensibile e ricca di funzionalità interfaccia web autoospitata per interagire con i grandi modelli linguistici.

vLLM è un motore di inferenza e servizio ad alto throughput e a basso consumo di memoria per modelli linguistici su larga scala (LLM), sviluppato dal laboratorio Sky Computing dell’Università della California, Berkeley.

Scegliere il giusto LLM per Cognee: Configurazione locale di Ollama

Scegliere il miglior LLM per Cognee richiede di bilanciare la qualità della costruzione del grafo, i tassi di allucinazione e i vincoli hardware. Cognee eccelle con modelli più grandi a bassa allucinazione (32B+) tramite Ollama ma le opzioni di dimensioni medio-piccole funzionano per le configurazioni più leggere.

Ollama vs vLLM vs LM Studio: il metodo migliore per eseguire LLM in locale nel 2026?

L’esecuzione di LLM in locale è ora pratica per sviluppatori, startup e persino team aziendali.
Ma la scelta dello strumento giusto — Ollama, vLLM, LM Studio, LocalAI o altri — dipende dai tuoi obiettivi: