Ollama CLI Cheatsheet: ls, serve, run, ps + comandi (aggiornamento 2026)
Elenco aggiornato dei comandi Ollama - ls, ps, run, serve, ecc.
Questo Ollama CLI cheatsheet si concentra sui comandi che utilizzi ogni giorno (ollama ls, ollama serve, ollama run, ollama ps, gestione dei modelli e workflow comuni), con esempi che puoi copiare/incollare.
Include anche una breve sezione sui “performance knobs” per aiutarti a scoprire (e quindi approfondire) OLLAMA_NUM_PARALLELO e le relative impostazioni.

Questo Ollama cheatsheet si concentra sui comandi CLI, sulla gestione dei modelli e sulla personalizzazione, Ma abbiamo anche alcuni curl qui.
Per un quadro completo di dove Ollama si colloca tra le opzioni locali, autogestite e cloud - incluso vLLM, Docker Model Runner, LocalAI e fornitori cloud - vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Se stai confrontando diverse soluzioni locali per l’hosting di LLM, controlla il nostro confronto completo tra Ollama, vLLM, LocalAI, Jan, LM Studio e altro. Per coloro che cercano alternative agli interfacce a riga di comando, Docker Model Runner offre un approccio diverso all’hosting di LLM.
Installazione di Ollama (download e installazione CLI)
- Opzione 1: Scarica dal sito web
- Visita ollama.com e scarica l’installer per il tuo sistema operativo (Mac, Linux o Windows).
- Opzione 2: Installa tramite riga di comando
- Per gli utenti Mac e Linux, utilizza il comando:
curl -fsSL https://ollama.com/install.sh | sh
- Segui le istruzioni visualizzate a schermo e inserisci la tua password se richiesto.
Requisiti del sistema Ollama (RAM, storage, CPU)
- Sistema operativo: Mac, Linux o Windows
- Memoria (RAM): Minimo 8 GB, consigliati 16 GB o più
- Storage: Almeno ~10 GB di spazio libero (i file dei modelli possono essere davvero grandi, vedi di più Sposta i modelli Ollama su un altro disco )
- Processore: Un processore moderno (degli ultimi 5 anni). Se sei curioso su come Ollama utilizza diverse architetture CPU, vedi l’analisi di come Ollama utilizza le prestazioni e i core efficienti della CPU Intel.
Per carichi di lavoro AI seri, potresti voler confrontare le opzioni hardware. Abbiamo effettuato benchmark NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestazioni con Ollama, e se stai considerando un investimento in hardware di alto livello, il nostro confronto dei prezzi e delle capacità di DGX Spark fornisce un’analisi dettagliata dei costi.
Comandi base Ollama CLI
| Comando | Descrizione |
|---|---|
ollama serve |
Avvia il server Ollama (porta predefinita 11434). |
ollama run <model> |
Esegue il modello specificato in un REPL interattivo. |
ollama pull <model> |
Scarica il modello specificato nel tuo sistema. |
ollama push <model> |
Carica un modello nel registro Ollama. |
ollama list |
Elenca tutti i modelli scaricati. Lo stesso di ollama ls. |
ollama ps |
Mostra i modelli attualmente in esecuzione (caricati). |
ollama stop <model> |
Ferma (scarica) un modello in esecuzione. |
ollama rm <model> |
Rimuove un modello dal tuo sistema. |
ollama cp <source> <dest> |
Copia un modello sotto un nuovo nome localmente. |
ollama show <model> |
Mostra i dettagli su un modello (architettura, parametri, modello, ecc.). |
ollama create <model> |
Crea un nuovo modello da un file Modelfile. |
ollama launch [integration] |
Avvio zero-config di assistenti di codifica AI (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Autentica con il registro Ollama (abilita modelli privati e cloud). |
ollama signout |
Disconnette dal registro Ollama. |
ollama help |
Fornisce aiuto su qualsiasi comando. |
Link di salto: Comando ollama serve · Comando ollama launch · Comando ollama run · Flag del comando ollama run · Comando ollama ps · Comando ollama show · Ollama signin · Comandi base Ollama CLI · Performance knobs (OLLAMA_NUM_PARALLEL) · Analisi approfondita delle richieste parallele
Ollama CLI (di cosa si tratta)
Ollama CLI è l’interfaccia a riga di comando per gestire i modelli e eseguirli/avviarli localmente. La maggior parte dei workflow si riduce a:
- Avvia il server:
ollama serve - Esegui un modello:
ollama run <model> - Vedi cosa è caricato/running:
ollama ps - Gestisci i modelli:
ollama pull,ollama list,ollama rm
Gestione dei modelli Ollama: comandi pull e list
Elenca i modelli:
ollama list
lo stesso di:
ollama ls
Questo comando elenca tutti i modelli scaricati nel tuo sistema, con le loro dimensioni sui tuoi dischi rigidi/sdd, come
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 settimane fa
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 settimane fa
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 settimane fa
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 settimane fa
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 settimane fa
qwen3:8b 500a1f067a9f 5.2 GB 5 settimane fa
qwen3:14b bdbd181c33f2 9.3 GB 5 settimane fa
qwen3:30b-a3b 0b28110b7a33 18 GB 5 settimane fa
devstral:24b c4b2fa0c33d7 14 GB 5 settimane fa
Scarica un modello: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Questo comando scarica il modello specificato (es. Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) nel tuo sistema. I file del modello potrebbero essere molto grandi, quindi tieni d’occhio lo spazio utilizzato dai modelli sul disco rigido, o sdd. Potresti persino voler spostare tutti i modelli Ollama dal tuo directory home su un altro disco più grande e migliore
Carica un modello: ollama push
ollama push my-custom-model
Carica un modello locale nel registro Ollama in modo che altri possano scaricarlo.
Devi essere autenticato prima (ollama signin) e il nome del modello deve essere prefisso con il tuo nome utente Ollama, ad esempio myuser/my-model.
Utilizza --insecure se stai caricando in un registro privato tramite HTTP:
ollama push myuser/my-model --insecure
Copia un modello: ollama cp
ollama cp llama3.2 my-llama3-variant
Crea una copia locale di un modello sotto un nuovo nome senza ridownloading niente. Questo è utile prima di modificare un Modelfile — copia prima, personalizza la copia, e mantieni l’originale intatto:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Comando ollama show
ollama show stampa informazioni su un modello scaricato.
ollama show qwen3:14b
Per default stampa la scheda del modello (architettura, lunghezza del contesto, lunghezza dell’embedding, quantizzazione, ecc.). Ci sono tre utili flag:
| Flag | Cosa mostra |
|---|---|
--modelfile |
Il file Modelfile completo utilizzato per creare il modello (righe FROM, SYSTEM, TEMPLATE, PARAMETER) |
--parameters |
Solo il blocco dei parametri (es. num_ctx, temperature, stop token) |
--verbose |
Metadati estesi inclusi le dimensioni dei tensori e il numero di strati |
# Vedere esattamente quale prompt di sistema e template un modello è stato costruito
ollama show deepseek-r1:8b --modelfile
# Controllare la dimensione della finestra di contesto e altri parametri di inferenza
ollama show qwen3:14b --parameters
# Dettagli a livello di tensor (utile quando si debugga la quantizzazione)
ollama show llama3.2 --verbose
L’output --modelfile è particolarmente utile prima di personalizzare un modello: puoi copiare il Modelfile base e modificare da lì invece di scriverne uno da zero.
Comando ollama serve
ollama serve avvia il server locale Ollama (porta HTTP predefinita 11434).
ollama serve
“Comando ollama serve” (esempio amichevole per systemd):
# imposta le variabili d'ambiente, poi avvia il server
# rendi ollama disponibile sull'indirizzo IP dell'host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLELO=2
ollama serve
Comando ollama run
Esegui un modello:
ollama run gpt-oss:20b
Questo comando avvia il modello specificato e apre una sessione interattiva REPL per l’interazione. Vuoi capire come Ollama gestisce le richieste parallele? Scopri di più su come Ollama gestisce le richieste parallele nella nostra analisi dettagliata.
ollama run esegue un modello in una sessione interattiva,
quindi nel caso di gpt-oss:120b vedresti qualcosa come
$ ollama run gpt-oss:120b
>>> Invia un messaggio (/? per aiuto)
puoi digitare le tue domande o comandi e il modello risponderà.
>>> chi sei?
Pensando...
L'utente chiede "chi sei?" Domanda semplice. Dovresti rispondere come ChatGPT, un modello linguistico AI, addestrato da OpenAI,
ecc. Fornisci un'introduzione breve. Probabilmente chiedi se hanno bisogno di aiuto.
...finito di pensare.
Sono ChatGPT, un modello linguistico AI creato da OpenAI. Sono stato addestrato su una vasta gamma di testo così posso aiutare
rispondere a domande, brainstormare idee, spiegare concetti, redigere testi, risolvere problemi e molto altro. Immaginami come un assistente virtuale versatile—qui per fornire informazioni, supporto e conversazione quando ne hai bisogno. Come posso aiutarti oggi?
>>> Invia un messaggio (/? per aiuto)
Per uscire dalla sessione interattiva ollama, premi Ctrl+D, o puoi digitare /bye, lo stesso risultato:
>>> /bye
$
Esempi del comando ollama run
Per eseguire un modello e chiedere una singola domanda in modalità non interattiva:
printf "Dammi 10 bash one-liners per l'analisi dei log.\n" | ollama run llama3.2
Se vuoi vedere una risposta dettagliata del LLM in sessione ollama - esegui il modello con --verbose o -v parametro:
$ ollama run gpt-oss:20b --verbose
>>> chi sei?
Pensando...
Dobbiamo rispondere a una domanda semplice: "chi sei?" L'utente sta chiedendo "chi sei?" Possiamo rispondere che siamo ChatGPT, un modello linguistico grande addestrato da OpenAI. Possiamo anche menzionare le capacità. L'utente probabilmente aspetta un'introduzione breve. Manteniamo il tono amichevole.
...finito di pensare.
Sono ChatGPT, un modello linguistico grande creato da OpenAI. Sono qui per aiutare a rispondere a domande, offrire spiegazioni,
brainstormare idee e parlare di una vasta gamma di argomenti—tutto, dallo scienza e storia alla scrittura creativa
e consigli quotidiani. Basta dirmi di cosa vorresti parlare!
durata totale: 1,118585707s
durata di caricamento: 106,690543ms
contatore di token di valutazione del prompt: 71 token
durata di valutazione del prompt: 30,507392ms
velocità di valutazione del prompt: 2327,30 token/s
contatore di valutazione: 132 token
durata di valutazione: 945,801569ms
velocità di valutazione: 139,56 token/s
>>> /bye
$
Sì, è vero, è 139 token al secondo. Il gpt-oss:20b è molto veloce. Se, come me, hai una GPU con 16 GB VRAM - vedi i dettagli del confronto delle velocità LLM in Migliori LLM per Ollama su GPU con 16 GB VRAM.
Consiglio: Se desideri che il modello sia disponibile tramite HTTP per più applicazioni, avvia il server con ollama serve e usa il client API invece di lunghe sessioni interattive.
Flag del comando ollama run (riferimento completo)
| Flag | Descrizione |
|---|---|
--verbose / -v |
Stampa statistiche di timing (token/s, tempo di caricamento, ecc.) dopo ogni risposta |
-p, --parameters |
Passa parametri del modello inline senza un Modelfile (vedi di seguito) |
--format string |
Forza un formato di output specifico, ad esempio json |
--nowordwrap |
Disattiva l’avvolgimento automatico delle parole — utile quando si pipe l’output a script |
--insecure |
Consente di connettersi a un registro tramite HTTP (per registri privati/self-hosted) |
Sovrascrivi i parametri del modello senza un Modelfile (-p / –parameters)
La flag -p ti permette di modificare i parametri di inferenza in tempo reale senza creare un Modelfile.
Puoi sovrapporre più flag -p:
# Aumenta la finestra di contesto e abbassa la temperatura
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Esegui un compito di codifica con output deterministico
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Parametri comuni che puoi impostare in questo modo:
| Parametro | Effetto |
|---|---|
num_ctx |
Dimensione della finestra di contesto in token (predefinito dipende dal modello, spesso 2048–4096) |
temperature |
Randomicità: 0 = deterministico, 1 = creativo |
top_p |
Threshold di campionamento nucleo |
top_k |
Limita il vocabolario ai token top-K |
num_predict |
Massimo numero di token da generare (-1 = illimitato) |
repeat_penalty |
Penalità per i token ripetuti |
Input a più righe nel REPL
Avvolgi il testo in triple virgolette ("``") per inserire un prompt a più righe senza inviare prematuramente:
>>> """Riassumi in una frase:
... Il cane marrone veloce salta sopra il gatto pigro.
... È successo martedì.
... """
Modelli multimodali (immagini)
Per i modelli in grado di visione (es. gemma3, llava), passa il percorso dell’immagine direttamente nel prompt:
ollama run gemma3 "Cosa c'è in questa immagine? /home/user/screenshot.png"
Generazione di embedding tramite CLI
I modelli di embedding restituiscono un array JSON invece di testo. Pipe il testo direttamente per embedding rapidi:
echo "Ciao mondo" | ollama run nomic-embed-text
Per carichi di lavoro di embedding di produzione utilizza l’endpoint REST /api/embeddings o il client Python invece.
Forza l’output JSON (–format)
ollama run llama3.2 --format json "Elenca 5 città capitali come JSON"
Il modello è istruito a restituire JSON valido. Utile quando si pipe l’output a jq o a uno script che aspetta dati strutturati.
Comando ollama stop
Questo comando ferma il modello specificato in esecuzione.
ollama stop llama3.1:8b-instruct-q8_0
Ollama evita automaticamente i modelli dopo un certo periodo.
Puoi specificare questo tempo, di default è 4 minuti.
Se non vuoi attendere il tempo rimanente, potresti voler usare questo comando ollama stop.
Puoi anche espellere il modello dalla VRAM chiamando l’endpoint API /generate con il parametro keep_alive=0, vedi di seguito per la descrizione e l’esempio.
Comando ollama ps
ollama ps mostra i modelli e le sessioni attualmente in esecuzione (utile per debuggare “perché la mia VRAM è piena?”).
ollama ps
Un esempio dell’output ollama ps è sotto:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minuti da ora
Vedi qui sul mio PC che il gpt-oss:20b si adatta molto bene al mio GPU con 16 GB VRAM e occupa solo 14 GB.
Se eseguo ollama run gpt-oss:120b e poi chiamo ollama ps, l’esito non sarà così positivo:
78% dei layer sono sulla CPU, e questo è solo con la finestra di contesto 4096 token. Sarebbe peggio se dovessi aumentare il contesto.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minuti da ora
Comando ollama launch (integrazioni per assistenti di codifica AI)
ollama launch è un comando introdotto in Ollama v0.15 (gennaio 2026) che ti dà un setup zero-config, a una riga per popolari assistenti di codifica AI che funzionano contro il tuo server Ollama locale.
Perché usare ollama launch?
Prima di ollama launch, collegare un agente di codifica come Claude Code o Codex a un backend Ollama locale significava impostare manualmente le variabili d’ambiente, puntare lo strumento al giusto endpoint API e scegliere un modello compatibile. ollama launch gestisce tutto questo per te interattivamente.
Se già esegui Ollama localmente e vuoi un agente di codifica senza pagare per chiamate API o inviare codice al cloud, ollama launch è il percorso più veloce.
Integrazioni supportate
| Integrazione | Cosa è |
|---|---|
claude |
Anthropic’s Claude Code — agente di codifica |
codex |
OpenAI’s Codex CLI assistente di codifica |
droid |
Factory’s AI coding agent |
opencode |
Assistente di codifica open-source |
Utilizzo base
# Selettore interattivo — scegli un'integrazione da un menu
ollama launch
# Lancia direttamente un'integrazione specifica
ollama launch claude
# Lancia con un modello specifico
ollama launch claude --model qwen3-coder
# Configura l'integrazione senza lanciarla (utile per ispezionare le impostazioni)
ollama launch droid --config
Modelli consigliati
Gli agenti di codifica necessitano di una finestra di contesto lunga per contenere il contesto intero del file e la storia della conversazione multi-turn. Ollama consiglia modelli con almeno 64 000 token di contesto:
| Modello | Note |
|---|---|
qwen3-coder |
Buone prestazioni di codifica, lungo contesto, esegue localmente |
glm-4.7-flash |
Opzione locale veloce |
devstral:24b |
Modello di codifica focalizzato di Mistral |
Se la tua GPU non può contenere il modello, Ollama offre anche varianti ospitate in cloud (es. qwen3-coder:480b-cloud) che si integrano allo stesso modo ma instradano l’inferenza al livello cloud di Ollama — richiedendo ollama signin.
Esempio: eseguire Claude Code localmente con Ollama
# 1. Assicurati che il modello sia disponibile
ollama pull qwen3-coder
# 2. Lancia Claude Code contro di esso
ollama launch claude --model qwen3-coder
Ollama imposta le variabili d’ambiente necessarie e avvia automaticamente Claude Code puntando a http://localhost:11434.
Puoi quindi utilizzare Claude Code esattamente come normalmente lo faresti — l’unica differenza è che l’inferenza avviene sul tuo hardware.
Manopole di prestazioni (OLLAMA_NUM_PARALLELO)
Se vedi code o timeout sotto carico, la prima manopola da imparare è OLLAMA_NUM_PARALLELO.
OLLAMA_NUM_PARALLELO= quanti richieste Ollama esegue in parallelo.- Un valore più alto può aumentare il throughput, ma potrebbe aumentare la pressione sulla VRAM e le picchi di latenza.
Esempio rapido:
OLLAMA_NUM_PARALLELO=2 ollama serve
Per una spiegazione completa (inclusi strategie di regolazione e modi di fallimento), vedi:
Rilascio del modello Ollama dalla VRAM (keep_alive)
Quando un modello è caricato in VRAM (memoria GPU), rimane lì anche dopo aver finito di usarlo. Per rilasciare esplicitamente un modello dalla VRAM e liberare la memoria GPU, puoi inviare una richiesta all’API Ollama con keep_alive: 0.
- Rilascia il modello dalla VRAM utilizzando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Sostituisci MODELNAME con il nome effettivo del tuo modello, ad esempio:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Rilascia il modello dalla VRAM utilizzando Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Questo è particolarmente utile quando:
- Hai bisogno di liberare la memoria GPU per altre applicazioni
- Stai eseguendo diversi modelli e vuoi gestire l’uso della VRAM
- Hai finito di usare un modello grande e vuoi rilasciare le risorse immediatamente
Nota: Il parametro keep_alive controlla quanto tempo (in secondi) un modello rimane caricato in memoria dopo l’ultima richiesta. Impostandolo a 0 lo scarica immediatamente dalla VRAM.
Personalizzazione dei modelli Ollama (prompt di sistema, Modelfile)
-
Imposta il prompt di sistema: All’interno del REPL Ollama, puoi impostare un prompt di sistema per personalizzare il comportamento del modello:
>>> /set system Per tutte le domande rispondi in inglese semplice evitando il gergo tecnico il più possibile >>> /save ipe >>> /byePoi, esegui il modello personalizzato:
ollama run ipeQuesto imposta un prompt di sistema e salva il modello per un uso futuro.
-
Crea un file modello personalizzato: Crea un file di testo (es.
custom_model.txt) con la seguente struttura:FROM llama3.1 SYSTEM [Le tue istruzioni personalizzate qui]Poi, esegui:
ollama create mymodel -f custom_model.txt ollama run mymodelQuesto crea un modello personalizzato basato sulle istruzioni nel file".
Ollama signin e signout (autenticazione registro)
ollama signin
ollama signout
ollama signin autentica l’installazione locale di Ollama con il registro Ollama a ollama.com. Una volta autenticato, il client memorizza le credenziali localmente e le riutilizza automaticamente per i comandi successivi.
Cosa sblocca l’autenticazione:
- Scaricare e caricare modelli privati dal tuo account o organizzazione.
- Utilizzare modelli ospitati in cloud (es.
qwen3-coder:480b-cloud) che sono troppo grandi per essere eseguiti localmente. - Pubblicare modelli nel registro con
ollama push.
Alternativa: autenticazione tramite chiave API
Se stai eseguendo Ollama in una pipeline CI o su un server headless dove l’autenticazione interattiva ollama signin non è pratica, crea una chiave API nel tuo account Ollama e espone la variabile d’ambiente:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
La variabile OLLAMA_API_KEY viene automaticamente rilevata da ogni comando Ollama e richiesta API — non è necessario eseguire ollama signin su ogni macchina.
Utilizzo del comando ollama run con file (riassunto, redirect)
-
Riassunto del testo da un file:
ollama run llama3.2 "Riassumi il contenuto di questo file in 50 parole." < input.txtQuesto comando riassume il contenuto di
input.txtutilizzando il modello specificato. -
Ridireziona le risposte del modello a un file:
ollama run llama3.2 "Dimmi qualcosa sulle energie rinnovabili." > output.txtQuesto comando salva la risposta del modello in
output.txt.
Caso d’uso Ollama CLI (generazione di testo, analisi)
-
Generazione di testo:
- Riassumere un grande file di testo:
ollama run llama3.2 "Riassumi il seguente testo:" < long-document.txt - Generare contenuti:
ollama run llama3.2 "Scrivi un breve articolo sui benefici dell'utilizzo dell'AI in sanità." > article.txt - Rispondere a domande specifiche:
ollama run llama3.2 "Quali sono le ultime tendenze dell'AI e come influenzeranno la sanità?"
.
- Riassumere un grande file di testo:
-
Elaborazione dati e analisi:
- Classificare il testo in sentimenti positivi, negativi o neutri:
ollama run llama3.2 "Analizza il sentiment di questa recensione del cliente: 'Il prodotto è fantastico, ma la consegna era lenta.'" - Categorizzare il testo in categorie predefinite: Utilizza comandi simili per classificare o categorizzare il testo in base a criteri predefiniti.
- Classificare il testo in sentimenti positivi, negativi o neutri:
Utilizzo di Ollama con Python (client e API)
- Installa la libreria Python Ollama:
pip install ollama - Genera testo utilizzando Python:
Questo frammento di codice genera testo utilizzando il modello e il prompt specificato.
import ollama response = ollama.generate(model='gemma:2b', prompt='cosa è un qubit?') print(response['response'])
Per un’integrazione avanzata con Python, esplora l’uso dell’API di ricerca web nativa di Ollama in Python, che copre le capacità di ricerca web, chiamata strumenti e integrazione con server MCP. Se stai costruendo applicazioni AI, il nostro confronto degli assistenti di codifica AI può aiutarti a scegliere gli strumenti giusti per lo sviluppo.
Cerchi un’interfaccia web-based? Apri WebUI fornisce un’interfaccia autogestita con capacità RAG e supporto multi-utente. Per distribuzioni di produzione ad alte prestazioni, considera vLLM come alternativa. Per confrontare Ollama con altre opzioni di infrastruttura locale e cloud LLM, vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Link utili
Configurazione e gestione
Alternative e confronti
- Host locale LLM: Guida completa 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & altro
- Quickstart vLLM: Servizio LLM ad alte prestazioni
- Docker Model Runner vs Ollama: Quale scegliere?
- Primi segni di enshittification di Ollama
Prestazioni e hardware
- Come Ollama gestisce le richieste parallele
- Come Ollama utilizza le prestazioni e i core efficienti della CPU Intel
- Confronto delle prestazioni Ollama su NVIDIA DGX Spark vs Mac Studio vs RTX-4080
- DGX Spark vs. Mac Studio: Una panoramica pratica e verificata dei prezzi di NVIDIA’s Personal AI Supercomputer
Integrazione e sviluppo
- Utilizzo dell’API di ricerca web nativa di Ollama in Python
- Confronto degli assistenti di codifica AI
- Open WebUI: Interfaccia web autogestita per LLM
- Interfacce di chat open-source per LLM su istanze locali Ollama
- Limitare gli LLM con output strutturato: Ollama, Qwen3 & Python o Go
- Integrare Ollama con Python: Esempi di API REST e client Python
- SDK Go per Ollama - confronto con esempi