Ollama CLI Cheatsheet: ls, serve, run, ps + comandi (aggiornamento 2026)

Elenco aggiornato dei comandi Ollama - ls, ps, run, serve, ecc.

Indice

Questo Ollama CLI cheatsheet si concentra sui comandi che utilizzi ogni giorno (ollama ls, ollama serve, ollama run, ollama ps, gestione dei modelli e workflow comuni), con esempi che puoi copiare/incollare.

Include anche una breve sezione sui “performance knobs” per aiutarti a scoprire (e quindi approfondire) OLLAMA_NUM_PARALLELO e le relative impostazioni.

ollama cheatsheet

Questo Ollama cheatsheet si concentra sui comandi CLI, sulla gestione dei modelli e sulla personalizzazione, Ma abbiamo anche alcuni curl qui.

Per un quadro completo di dove Ollama si colloca tra le opzioni locali, autogestite e cloud - incluso vLLM, Docker Model Runner, LocalAI e fornitori cloud - vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Se stai confrontando diverse soluzioni locali per l’hosting di LLM, controlla il nostro confronto completo tra Ollama, vLLM, LocalAI, Jan, LM Studio e altro. Per coloro che cercano alternative agli interfacce a riga di comando, Docker Model Runner offre un approccio diverso all’hosting di LLM.

Installazione di Ollama (download e installazione CLI)

  • Opzione 1: Scarica dal sito web
    • Visita ollama.com e scarica l’installer per il tuo sistema operativo (Mac, Linux o Windows).
  • Opzione 2: Installa tramite riga di comando
    • Per gli utenti Mac e Linux, utilizza il comando:
curl -fsSL https://ollama.com/install.sh | sh
  • Segui le istruzioni visualizzate a schermo e inserisci la tua password se richiesto.

Requisiti del sistema Ollama (RAM, storage, CPU)

Per carichi di lavoro AI seri, potresti voler confrontare le opzioni hardware. Abbiamo effettuato benchmark NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestazioni con Ollama, e se stai considerando un investimento in hardware di alto livello, il nostro confronto dei prezzi e delle capacità di DGX Spark fornisce un’analisi dettagliata dei costi.

Comandi base Ollama CLI

Comando Descrizione
ollama serve Avvia il server Ollama (porta predefinita 11434).
ollama run <model> Esegue il modello specificato in un REPL interattivo.
ollama pull <model> Scarica il modello specificato nel tuo sistema.
ollama push <model> Carica un modello nel registro Ollama.
ollama list Elenca tutti i modelli scaricati. Lo stesso di ollama ls.
ollama ps Mostra i modelli attualmente in esecuzione (caricati).
ollama stop <model> Ferma (scarica) un modello in esecuzione.
ollama rm <model> Rimuove un modello dal tuo sistema.
ollama cp <source> <dest> Copia un modello sotto un nuovo nome localmente.
ollama show <model> Mostra i dettagli su un modello (architettura, parametri, modello, ecc.).
ollama create <model> Crea un nuovo modello da un file Modelfile.
ollama launch [integration] Avvio zero-config di assistenti di codifica AI (Claude Code, Codex, Droid, OpenCode).
ollama signin Autentica con il registro Ollama (abilita modelli privati e cloud).
ollama signout Disconnette dal registro Ollama.
ollama help Fornisce aiuto su qualsiasi comando.

Link di salto: Comando ollama serve · Comando ollama launch · Comando ollama run · Flag del comando ollama run · Comando ollama ps · Comando ollama show · Ollama signin · Comandi base Ollama CLI · Performance knobs (OLLAMA_NUM_PARALLEL) · Analisi approfondita delle richieste parallele

Ollama CLI (di cosa si tratta)

Ollama CLI è l’interfaccia a riga di comando per gestire i modelli e eseguirli/avviarli localmente. La maggior parte dei workflow si riduce a:

  • Avvia il server: ollama serve
  • Esegui un modello: ollama run <model>
  • Vedi cosa è caricato/running: ollama ps
  • Gestisci i modelli: ollama pull, ollama list, ollama rm

Gestione dei modelli Ollama: comandi pull e list

Elenca i modelli:

ollama list

lo stesso di:

ollama ls

Questo comando elenca tutti i modelli scaricati nel tuo sistema, con le loro dimensioni sui tuoi dischi rigidi/sdd, come

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 settimane fa     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 settimane fa     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 settimane fa     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 settimane fa     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 settimane fa     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 settimane fa     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 settimane fa     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 settimane fa     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 settimane fa  

Scarica un modello: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Questo comando scarica il modello specificato (es. Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) nel tuo sistema. I file del modello potrebbero essere molto grandi, quindi tieni d’occhio lo spazio utilizzato dai modelli sul disco rigido, o sdd. Potresti persino voler spostare tutti i modelli Ollama dal tuo directory home su un altro disco più grande e migliore

Carica un modello: ollama push

ollama push my-custom-model

Carica un modello locale nel registro Ollama in modo che altri possano scaricarlo. Devi essere autenticato prima (ollama signin) e il nome del modello deve essere prefisso con il tuo nome utente Ollama, ad esempio myuser/my-model. Utilizza --insecure se stai caricando in un registro privato tramite HTTP:

ollama push myuser/my-model --insecure

Copia un modello: ollama cp

ollama cp llama3.2 my-llama3-variant

Crea una copia locale di un modello sotto un nuovo nome senza ridownloading niente. Questo è utile prima di modificare un Modelfile — copia prima, personalizza la copia, e mantieni l’originale intatto:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Comando ollama show

ollama show stampa informazioni su un modello scaricato.

ollama show qwen3:14b

Per default stampa la scheda del modello (architettura, lunghezza del contesto, lunghezza dell’embedding, quantizzazione, ecc.). Ci sono tre utili flag:

Flag Cosa mostra
--modelfile Il file Modelfile completo utilizzato per creare il modello (righe FROM, SYSTEM, TEMPLATE, PARAMETER)
--parameters Solo il blocco dei parametri (es. num_ctx, temperature, stop token)
--verbose Metadati estesi inclusi le dimensioni dei tensori e il numero di strati
# Vedere esattamente quale prompt di sistema e template un modello è stato costruito
ollama show deepseek-r1:8b --modelfile

# Controllare la dimensione della finestra di contesto e altri parametri di inferenza
ollama show qwen3:14b --parameters

# Dettagli a livello di tensor (utile quando si debugga la quantizzazione)
ollama show llama3.2 --verbose

L’output --modelfile è particolarmente utile prima di personalizzare un modello: puoi copiare il Modelfile base e modificare da lì invece di scriverne uno da zero.

Comando ollama serve

ollama serve avvia il server locale Ollama (porta HTTP predefinita 11434).

ollama serve

“Comando ollama serve” (esempio amichevole per systemd):

# imposta le variabili d'ambiente, poi avvia il server
# rendi ollama disponibile sull'indirizzo IP dell'host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLELO=2
ollama serve

Comando ollama run

Esegui un modello:

ollama run gpt-oss:20b

Questo comando avvia il modello specificato e apre una sessione interattiva REPL per l’interazione. Vuoi capire come Ollama gestisce le richieste parallele? Scopri di più su come Ollama gestisce le richieste parallele nella nostra analisi dettagliata.

ollama run esegue un modello in una sessione interattiva, quindi nel caso di gpt-oss:120b vedresti qualcosa come

$ ollama run gpt-oss:120b
>>> Invia un messaggio (/? per aiuto)

puoi digitare le tue domande o comandi e il modello risponderà.

>>> chi sei?
Pensando...
L'utente chiede "chi sei?" Domanda semplice. Dovresti rispondere come ChatGPT, un modello linguistico AI, addestrato da OpenAI, 
ecc. Fornisci un'introduzione breve. Probabilmente chiedi se hanno bisogno di aiuto.
...finito di pensare.

Sono ChatGPT, un modello linguistico AI creato da OpenAI. Sono stato addestrato su una vasta gamma di testo così posso aiutare 
rispondere a domande, brainstormare idee, spiegare concetti, redigere testi, risolvere problemi e molto altro. Immaginami come un assistente virtuale versatile—qui per fornire informazioni, supporto e conversazione quando ne hai bisogno. Come posso aiutarti oggi?

>>> Invia un messaggio (/? per aiuto)

Per uscire dalla sessione interattiva ollama, premi Ctrl+D, o puoi digitare /bye, lo stesso risultato:

>>> /bye
$ 

Esempi del comando ollama run

Per eseguire un modello e chiedere una singola domanda in modalità non interattiva:

printf "Dammi 10 bash one-liners per l'analisi dei log.\n" | ollama run llama3.2

Se vuoi vedere una risposta dettagliata del LLM in sessione ollama - esegui il modello con --verbose o -v parametro:

$ ollama run gpt-oss:20b --verbose
>>> chi sei?
Pensando...
Dobbiamo rispondere a una domanda semplice: "chi sei?" L'utente sta chiedendo "chi sei?" Possiamo rispondere che siamo ChatGPT, un modello linguistico grande addestrato da OpenAI. Possiamo anche menzionare le capacità. L'utente probabilmente aspetta un'introduzione breve. Manteniamo il tono amichevole.
...finito di pensare.

Sono ChatGPT, un modello linguistico grande creato da OpenAI. Sono qui per aiutare a rispondere a domande, offrire spiegazioni, 
brainstormare idee e parlare di una vasta gamma di argomenti—tutto, dallo scienza e storia alla scrittura creativa 
e consigli quotidiani. Basta dirmi di cosa vorresti parlare!

durata totale:       1,118585707s
durata di caricamento:        106,690543ms
contatore di token di valutazione del prompt:    71 token
durata di valutazione del prompt: 30,507392ms
velocità di valutazione del prompt: 2327,30 token/s
contatore di valutazione:           132 token
durata di valutazione:        945,801569ms
velocità di valutazione:            139,56 token/s
>>> /bye
$ 

Sì, è vero, è 139 token al secondo. Il gpt-oss:20b è molto veloce. Se, come me, hai una GPU con 16 GB VRAM - vedi i dettagli del confronto delle velocità LLM in Migliori LLM per Ollama su GPU con 16 GB VRAM.

Consiglio: Se desideri che il modello sia disponibile tramite HTTP per più applicazioni, avvia il server con ollama serve e usa il client API invece di lunghe sessioni interattive.

Flag del comando ollama run (riferimento completo)

Flag Descrizione
--verbose / -v Stampa statistiche di timing (token/s, tempo di caricamento, ecc.) dopo ogni risposta
-p, --parameters Passa parametri del modello inline senza un Modelfile (vedi di seguito)
--format string Forza un formato di output specifico, ad esempio json
--nowordwrap Disattiva l’avvolgimento automatico delle parole — utile quando si pipe l’output a script
--insecure Consente di connettersi a un registro tramite HTTP (per registri privati/self-hosted)

Sovrascrivi i parametri del modello senza un Modelfile (-p / –parameters)

La flag -p ti permette di modificare i parametri di inferenza in tempo reale senza creare un Modelfile. Puoi sovrapporre più flag -p:

# Aumenta la finestra di contesto e abbassa la temperatura
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Esegui un compito di codifica con output deterministico
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Parametri comuni che puoi impostare in questo modo:

Parametro Effetto
num_ctx Dimensione della finestra di contesto in token (predefinito dipende dal modello, spesso 2048–4096)
temperature Randomicità: 0 = deterministico, 1 = creativo
top_p Threshold di campionamento nucleo
top_k Limita il vocabolario ai token top-K
num_predict Massimo numero di token da generare (-1 = illimitato)
repeat_penalty Penalità per i token ripetuti

Input a più righe nel REPL

Avvolgi il testo in triple virgolette ("``") per inserire un prompt a più righe senza inviare prematuramente:

>>> """Riassumi in una frase:
... Il cane marrone veloce salta sopra il gatto pigro.
... È successo martedì.
... """

Modelli multimodali (immagini)

Per i modelli in grado di visione (es. gemma3, llava), passa il percorso dell’immagine direttamente nel prompt:

ollama run gemma3 "Cosa c'è in questa immagine? /home/user/screenshot.png"

Generazione di embedding tramite CLI

I modelli di embedding restituiscono un array JSON invece di testo. Pipe il testo direttamente per embedding rapidi:

echo "Ciao mondo" | ollama run nomic-embed-text

Per carichi di lavoro di embedding di produzione utilizza l’endpoint REST /api/embeddings o il client Python invece.

Forza l’output JSON (–format)

ollama run llama3.2 --format json "Elenca 5 città capitali come JSON"

Il modello è istruito a restituire JSON valido. Utile quando si pipe l’output a jq o a uno script che aspetta dati strutturati.

Comando ollama stop

Questo comando ferma il modello specificato in esecuzione.

ollama stop llama3.1:8b-instruct-q8_0

Ollama evita automaticamente i modelli dopo un certo periodo. Puoi specificare questo tempo, di default è 4 minuti. Se non vuoi attendere il tempo rimanente, potresti voler usare questo comando ollama stop. Puoi anche espellere il modello dalla VRAM chiamando l’endpoint API /generate con il parametro keep_alive=0, vedi di seguito per la descrizione e l’esempio.

Comando ollama ps

ollama ps mostra i modelli e le sessioni attualmente in esecuzione (utile per debuggare “perché la mia VRAM è piena?”).

ollama ps

Un esempio dell’output ollama ps è sotto:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minuti da ora

Vedi qui sul mio PC che il gpt-oss:20b si adatta molto bene al mio GPU con 16 GB VRAM e occupa solo 14 GB.

Se eseguo ollama run gpt-oss:120b e poi chiamo ollama ps, l’esito non sarà così positivo: 78% dei layer sono sulla CPU, e questo è solo con la finestra di contesto 4096 token. Sarebbe peggio se dovessi aumentare il contesto.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minuti da ora

Comando ollama launch (integrazioni per assistenti di codifica AI)

ollama launch è un comando introdotto in Ollama v0.15 (gennaio 2026) che ti dà un setup zero-config, a una riga per popolari assistenti di codifica AI che funzionano contro il tuo server Ollama locale.

Perché usare ollama launch?

Prima di ollama launch, collegare un agente di codifica come Claude Code o Codex a un backend Ollama locale significava impostare manualmente le variabili d’ambiente, puntare lo strumento al giusto endpoint API e scegliere un modello compatibile. ollama launch gestisce tutto questo per te interattivamente.

Se già esegui Ollama localmente e vuoi un agente di codifica senza pagare per chiamate API o inviare codice al cloud, ollama launch è il percorso più veloce.

Integrazioni supportate

Integrazione Cosa è
claude Anthropic’s Claude Code — agente di codifica
codex OpenAI’s Codex CLI assistente di codifica
droid Factory’s AI coding agent
opencode Assistente di codifica open-source

Utilizzo base

# Selettore interattivo — scegli un'integrazione da un menu
ollama launch

# Lancia direttamente un'integrazione specifica
ollama launch claude

# Lancia con un modello specifico
ollama launch claude --model qwen3-coder

# Configura l'integrazione senza lanciarla (utile per ispezionare le impostazioni)
ollama launch droid --config

Modelli consigliati

Gli agenti di codifica necessitano di una finestra di contesto lunga per contenere il contesto intero del file e la storia della conversazione multi-turn. Ollama consiglia modelli con almeno 64 000 token di contesto:

Modello Note
qwen3-coder Buone prestazioni di codifica, lungo contesto, esegue localmente
glm-4.7-flash Opzione locale veloce
devstral:24b Modello di codifica focalizzato di Mistral

Se la tua GPU non può contenere il modello, Ollama offre anche varianti ospitate in cloud (es. qwen3-coder:480b-cloud) che si integrano allo stesso modo ma instradano l’inferenza al livello cloud di Ollama — richiedendo ollama signin.

Esempio: eseguire Claude Code localmente con Ollama

# 1. Assicurati che il modello sia disponibile
ollama pull qwen3-coder

# 2. Lancia Claude Code contro di esso
ollama launch claude --model qwen3-coder

Ollama imposta le variabili d’ambiente necessarie e avvia automaticamente Claude Code puntando a http://localhost:11434. Puoi quindi utilizzare Claude Code esattamente come normalmente lo faresti — l’unica differenza è che l’inferenza avviene sul tuo hardware.

Manopole di prestazioni (OLLAMA_NUM_PARALLELO)

Se vedi code o timeout sotto carico, la prima manopola da imparare è OLLAMA_NUM_PARALLELO.

  • OLLAMA_NUM_PARALLELO = quanti richieste Ollama esegue in parallelo.
  • Un valore più alto può aumentare il throughput, ma potrebbe aumentare la pressione sulla VRAM e le picchi di latenza.

Esempio rapido:

OLLAMA_NUM_PARALLELO=2 ollama serve

Per una spiegazione completa (inclusi strategie di regolazione e modi di fallimento), vedi:

Rilascio del modello Ollama dalla VRAM (keep_alive)

Quando un modello è caricato in VRAM (memoria GPU), rimane lì anche dopo aver finito di usarlo. Per rilasciare esplicitamente un modello dalla VRAM e liberare la memoria GPU, puoi inviare una richiesta all’API Ollama con keep_alive: 0.

  • Rilascia il modello dalla VRAM utilizzando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Sostituisci MODELNAME con il nome effettivo del tuo modello, ad esempio:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Rilascia il modello dalla VRAM utilizzando Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Questo è particolarmente utile quando:

  • Hai bisogno di liberare la memoria GPU per altre applicazioni
  • Stai eseguendo diversi modelli e vuoi gestire l’uso della VRAM
  • Hai finito di usare un modello grande e vuoi rilasciare le risorse immediatamente

Nota: Il parametro keep_alive controlla quanto tempo (in secondi) un modello rimane caricato in memoria dopo l’ultima richiesta. Impostandolo a 0 lo scarica immediatamente dalla VRAM.

Personalizzazione dei modelli Ollama (prompt di sistema, Modelfile)

  • Imposta il prompt di sistema: All’interno del REPL Ollama, puoi impostare un prompt di sistema per personalizzare il comportamento del modello:

    >>> /set system Per tutte le domande rispondi in inglese semplice evitando il gergo tecnico il più possibile
    >>> /save ipe
    >>> /bye
    

    Poi, esegui il modello personalizzato:

    ollama run ipe
    

    Questo imposta un prompt di sistema e salva il modello per un uso futuro.

  • Crea un file modello personalizzato: Crea un file di testo (es. custom_model.txt) con la seguente struttura:

    FROM llama3.1
    SYSTEM [Le tue istruzioni personalizzate qui]
    

    Poi, esegui:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Questo crea un modello personalizzato basato sulle istruzioni nel file".

Ollama signin e signout (autenticazione registro)

ollama signin
ollama signout

ollama signin autentica l’installazione locale di Ollama con il registro Ollama a ollama.com. Una volta autenticato, il client memorizza le credenziali localmente e le riutilizza automaticamente per i comandi successivi.

Cosa sblocca l’autenticazione:

  • Scaricare e caricare modelli privati dal tuo account o organizzazione.
  • Utilizzare modelli ospitati in cloud (es. qwen3-coder:480b-cloud) che sono troppo grandi per essere eseguiti localmente.
  • Pubblicare modelli nel registro con ollama push.

Alternativa: autenticazione tramite chiave API

Se stai eseguendo Ollama in una pipeline CI o su un server headless dove l’autenticazione interattiva ollama signin non è pratica, crea una chiave API nel tuo account Ollama e espone la variabile d’ambiente:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

La variabile OLLAMA_API_KEY viene automaticamente rilevata da ogni comando Ollama e richiesta API — non è necessario eseguire ollama signin su ogni macchina.

Utilizzo del comando ollama run con file (riassunto, redirect)

  • Riassunto del testo da un file:

    ollama run llama3.2 "Riassumi il contenuto di questo file in 50 parole." < input.txt
    

    Questo comando riassume il contenuto di input.txt utilizzando il modello specificato.

  • Ridireziona le risposte del modello a un file:

    ollama run llama3.2 "Dimmi qualcosa sulle energie rinnovabili." > output.txt
    

    Questo comando salva la risposta del modello in output.txt.

Caso d’uso Ollama CLI (generazione di testo, analisi)

  • Generazione di testo:

    • Riassumere un grande file di testo:
      ollama run llama3.2 "Riassumi il seguente testo:" < long-document.txt
      
    • Generare contenuti:
      ollama run llama3.2 "Scrivi un breve articolo sui benefici dell'utilizzo dell'AI in sanità." > article.txt
      
    • Rispondere a domande specifiche:
      ollama run llama3.2 "Quali sono le ultime tendenze dell'AI e come influenzeranno la sanità?"
      

    .

  • Elaborazione dati e analisi:

    • Classificare il testo in sentimenti positivi, negativi o neutri:
      ollama run llama3.2 "Analizza il sentiment di questa recensione del cliente: 'Il prodotto è fantastico, ma la consegna era lenta.'"
      
    • Categorizzare il testo in categorie predefinite: Utilizza comandi simili per classificare o categorizzare il testo in base a criteri predefiniti.

Utilizzo di Ollama con Python (client e API)

  • Installa la libreria Python Ollama:
    pip install ollama
    
  • Genera testo utilizzando Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='cosa è un qubit?')
    print(response['response'])
    
    Questo frammento di codice genera testo utilizzando il modello e il prompt specificato.

Per un’integrazione avanzata con Python, esplora l’uso dell’API di ricerca web nativa di Ollama in Python, che copre le capacità di ricerca web, chiamata strumenti e integrazione con server MCP. Se stai costruendo applicazioni AI, il nostro confronto degli assistenti di codifica AI può aiutarti a scegliere gli strumenti giusti per lo sviluppo.

Cerchi un’interfaccia web-based? Apri WebUI fornisce un’interfaccia autogestita con capacità RAG e supporto multi-utente. Per distribuzioni di produzione ad alte prestazioni, considera vLLM come alternativa. Per confrontare Ollama con altre opzioni di infrastruttura locale e cloud LLM, vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Configurazione e gestione

Alternative e confronti

Prestazioni e hardware

Integrazione e sviluppo