Scheda di riferimento della CLI di Ollama: ls, serve, run, ps e altri comandi (aggiornamento 2026)
Aggiornata l'elenco dei comandi Ollama - ls, ps, run, serve, ecc.
Questa scheda di riferimento per Ollama CLI si concentra sui comandi che utilizzi ogni giorno (ollama ls, ollama serve, ollama run, ollama ps, gestione dei modelli e flussi di lavoro comuni), con esempi pronti per il copia-incolla.
Include anche una breve sezione sulle “manopole delle prestazioni” per aiutarti a scoprire (e approfondire) OLLAMA_NUM_PARALLEL e le relative impostazioni.

Questa scheda di riferimento su Ollama si concentra sui comandi CLI, sulla gestione dei modelli e sulla personalizzazione, ma include anche alcune chiamate curl.
Per una visione completa di dove si inserisce Ollama tra le opzioni locali, self-hosted e cloud—inclusi vLLM, Docker Model Runner, LocalAI e provider cloud—vedi LLM Hosting: Infrastrutture Locali, Self-Hosted e Cloud Confrontate. Se stai confrontando diverse soluzioni di hosting locale per LLM, consulta il nostro confronto completo tra Ollama, vLLM, LocalAI, Jan, LM Studio e altri. Per chi cerca alternative alle interfacce a riga di comando, Docker Model Runner offre un approccio diverso al deployment dei LLM.
Installazione di Ollama (download e installazione CLI)
- Opzione 1: Download dal sito web
- Visita ollama.com e scarica l’installer per il tuo sistema operativo (Mac, Linux o Windows).
- Opzione 2: Installazione tramite riga di comando
- Per gli utenti Mac e Linux, usa il comando:
curl -fsSL https://ollama.com/install.sh | sh
- Segui le istruzioni a schermo e inserisci la tua password se richiesto.
Requisiti di sistema per Ollama (RAM, archiviazione, CPU)
- Sistema Operativo: Mac, Linux o Windows
- Memoria (RAM): 8GB minimo, 16GB o più consigliati
- Archiviazione: Almeno ~10GB di spazio libero (i file dei modelli potrebbero essere molto grandi, vedi qui di più Sposta i Modelli Ollama su un’Unità Diversa )
- Processore: Una CPU relativamente moderna (degli ultimi 5 anni). Se sei curioso su come Ollama utilizza diverse architetture CPU, vedi la nostra analisi su come Ollama utilizza le CPU Intel Performance ed Efficient Cores.
Per carichi di lavoro AI seri, potresti voler confrontare le opzioni hardware. Abbiamo benchmarkato le prestazioni di NVIDIA DGX Spark vs Mac Studio vs RTX-4080 con Ollama, e se stai considerando un investimento in hardware di fascia alta, il nostro confronto su prezzi e capacità di DGX Spark fornisce un’analisi dei costi dettagliata.
Comandi CLI di base di Ollama
| Comando | Descrizione |
|---|---|
ollama serve |
Avvia il server Ollama (porta predefinita 11434). |
ollama run <model> |
Esegue il modello specificato in un REPL interattivo. |
ollama pull <model> |
Scarica il modello specificato sul tuo sistema. |
ollama push <model> |
Carica un modello sul registro Ollama. |
ollama list |
Elenca tutti i modelli scaricati. Equivalente a ollama ls. |
ollama ps |
Mostra i modelli attualmente in esecuzione (caricati). |
ollama stop <model> |
Ferma (scarica) un modello in esecuzione. |
ollama rm <model> |
Rimuove un modello dal tuo sistema. |
ollama cp <source> <dest> |
Copia un modello con un nuovo nome localmente. |
ollama show <model> |
Visualizza i dettagli su un modello (architettura, parametri, template, ecc.). |
ollama create <model> |
Crea un nuovo modello da un Modelfile. |
ollama launch [integration] |
Avvio senza configurazione di assistenti di coding AI (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Autentica con il registro Ollama (abilita modelli privati e cloud). |
ollama signout |
Disconnetti dal registro Ollama. |
ollama help |
Fornisce aiuto su qualsiasi comando. |
Link rapidi: Comando Ollama serve · Comando Ollama launch · Comando Ollama run · Flag Ollama run · Comando Ollama ps · Comando Ollama show · Ollama signin · Base CLI Ollama · Manopole delle prestazioni (OLLAMA_NUM_PARALLEL) · Approfondimento sulle richieste parallele
Ollama CLI (cos’è)
Ollama CLI è l’interfaccia a riga di comando per gestire i modelli ed eseguirli/ospitarli localmente. La maggior parte dei flussi di lavoro si riduce a:
- Avvia il server:
ollama serve - Esegui un modello:
ollama run <model> - Vedi cosa è caricato/in esecuzione:
ollama ps - Gestisci i modelli:
ollama pull,ollama list,ollama rm
Gestione dei modelli Ollama: comandi pull e list
Elenca Modelli:
ollama list
lo stesso come:
ollama ls
Questo comando elenca tutti i modelli scaricati sul tuo sistema, con le loro dimensioni dei file sul tuo hdd/ssd, come
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 settimane fa
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 settimane fa
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 settimane fa
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 settimane fa
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 settimane fa
qwen3:8b 500a1f067a9f 5.2 GB 5 settimane fa
qwen3:14b bdbd181c33f2 9.3 GB 5 settimane fa
qwen3:30b-a3b 0b28110b7a33 18 GB 5 settimane fa
devstral:24b c4b2fa0c33d7 14 GB 5 settimane fa
Scarica un Modello: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Questo comando scarica il modello specificato (ad esempio, Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) sul tuo sistema. I file del modello potrebbero essere piuttosto grandi, quindi tieni d’occhio lo spazio utilizzato dai modelli sull’hard disk o ssd. Potresti persino voler spostare tutti i modelli Ollama dalla tua directory home a un’unità più grande e migliore
Carica un Modello: ollama push
ollama push my-custom-model
Carica un modello locale sul registro Ollama affinché altri possano scaricarlo.
Devi prima effettuare l’accesso (ollama signin) e il nome del modello deve essere prefissato con il tuo nome utente Ollama, ad esempio myuser/my-model.
Usa --insecure se stai caricando su un registro privato tramite HTTP:
ollama push myuser/my-model --insecure
Copia un Modello: ollama cp
ollama cp llama3.2 my-llama3-variant
Crea una copia locale di un modello con un nuovo nome senza dover riscaricare nulla. Questo è utile prima di modificare un Modelfile — copia prima, personalizza la copia e mantieni l’originale intatto:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Comando Ollama show
ollama show stampa informazioni su un modello scaricato.
ollama show qwen3:14b
Di default stampa la scheda del modello (architettura, lunghezza del contesto, lunghezza dell’embedding, quantizzazione, ecc.). Ci sono tre flag utili:
| Flag | Cosa mostra |
|---|---|
--modelfile |
Il Modelfile completo usato per creare il modello (righe FROM, SYSTEM, TEMPLATE, PARAMETER) |
--parameters |
Solo il blocco dei parametri (ad es. num_ctx, temperature, token stop) |
--verbose |
Metadati estesi inclusi le forme dei tensori e il conteggio dei layer |
# Vedi esattamente con quale prompt di sistema e template è stato costruito un modello
ollama show deepseek-r1:8b --modelfile
# Controlla la dimensione della finestra di contesto e altri parametri di inferenza
ollama show qwen3:14b --parameters
# Dettaglio completo a livello di tensore (utile quando si debugga la quantizzazione)
ollama show llama3.2 --verbose
L’output --modelfile è particolarmente utile prima di personalizzare un modello: puoi copiare il Modelfile di base e modificare da lì invece di scriverne uno da zero.
Comando Ollama serve
ollama serve avvia il server locale Ollama (porta HTTP predefinita 11434).
ollama serve
Comando “ollama serve” (esempio compatibile con systemd):
# imposta le variabili di ambiente, poi avvia il server
# rende ollama disponibile sull'indirizzo IP dell'host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Comando Ollama run
Esegui un Modello:
ollama run gpt-oss:20b
Questo comando avvia il modello specificato e apre un REPL interattivo per l’interazione. Vuoi capire come Ollama gestisce più richieste concorrenti? Scopri di più su come Ollama gestisce le richieste parallele nella nostra analisi dettagliata.
ollama run esegue un modello in una sessione interattiva,
quindi nel caso di gpt-oss:120b vedresti qualcosa come
$ ollama run gpt-oss:120b
>>> Invia un messaggio (/? per aiuto)
puoi digitare le tue domande o comandi e il modello risponderà.
>>> chi sei?
Pensando...
L'utente chiede "chi sei?". Domanda semplice. Dovrei rispondere come ChatGPT, un modello linguistico AI, addestrato da OpenAI,
ecc. Fornisci una breve introduzione. Probabilmente chiedi se hanno bisogno di aiuto.
...pensamento completato.
Sono ChatGPT, un modello linguistico AI creato da OpenAI. Sono stato addestrato su un'ampia gamma di testi per poter aiutare
a rispondere a domande, fare brainstorming di idee, spiegare concetti, scrivere bozze, risolvere problemi e molto altro. Pensaci
come a un assistente virtuale versatile—qui per fornire informazioni, supporto e conversazione quando ne hai
bisogno. Come posso aiutarti oggi?
>>> Invia un messaggio (/? per aiuto)
Per uscire dalla sessione interattiva di ollama, premi Ctrl+D, oppure puoi digitare /bye, con lo stesso risultato:
>>> /bye
$
Esempi del comando Ollama run
Per eseguire un modello e fare una singola domanda in modalità non interattiva:
printf "Dammi 10 one-liner bash per l'analisi dei log.\n" | ollama run llama3.2
Se vuoi vedere una risposta LLM dettagliata e verbosa nella sessione ollama - esegui il modello con il parametro --verbose o -v:
$ ollama run gpt-oss:20b --verbose
>>> chi sei?
Pensando...
Dobbiamo rispondere a una domanda semplice: "chi sei?" L'utente sta chiedendo "chi sei?" Possiamo rispondere che
siamo ChatGPT, un modello linguistico di grandi dimensioni addestrato da OpenAI. Possiamo anche menzionare le capacità. L'utente si aspetta
probabilmente una breve introduzione. Manteniamolo amichevole.
...pensamento completato.
Sono ChatGPT, un modello linguistico di grandi dimensioni creato da OpenAI. Sono qui per aiutare a rispondere a domande, offrire spiegazioni,
fare brainstorming di idee e chattare su un'ampia gamma di argomenti—dalla scienza alla storia, dalla scrittura creativa
ai consigli quotidiani. Fammi solo sapere di cosa vuoi parlare!
durata totale: 1.118585707s
durata caricamento: 106.690543ms
conteggio valutazione prompt: 71 token(s)
durata valutazione prompt: 30.507392ms
tasso valutazione prompt: 2327.30 tokens/s
conteggio valutazione: 132 token(s)
durata valutazione: 945.801569ms
tasso valutazione: 139.56 tokens/s
>>> /bye
$
Sì, esatto, sono 139 token al secondo. Il modello gpt-oss:20b è molto veloce. Se, come me, hai una GPU con 16GB di VRAM - vedi i dettagli del confronto delle velocità LLM in Migliori LLM per Ollama su GPU 16GB VRAM.
Suggerimento: Se vuoi che il modello sia disponibile tramite HTTP per più applicazioni, avvia il server con ollama serve e usa il client API invece di lunghe sessioni interattive.
Flag del comando Ollama run (riferimento completo)
| Flag | Descrizione |
|---|---|
--verbose / -v |
Stampa le statistiche temporali (token/s, tempo di caricamento, ecc.) dopo ogni risposta |
-p, --parameters |
Passa i parametri del modello inline senza un Modelfile (vedi sotto) |
--format string |
Forza un formato di output specifico, ad es. json |
--nowordwrap |
Disabilita l’avvolgimento automatico delle parole — utile quando si invia l’output a script |
--insecure |
Permette la connessione a un registro tramite HTTP (per registri privati/self-hosted) |
Sovrascrivi i parametri del modello senza un Modelfile (-p / –parameters)
Il flag -p ti permette di cambiare i parametri di inferenza a runtime senza creare un Modelfile.
Puoi impilare più flag -p:
# Aumenta la finestra di contesto e abbassa la temperatura
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Esegui un task di coding con output deterministico
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Parametri comuni che puoi impostare in questo modo:
| Parametro | Effetto |
|---|---|
num_ctx |
Dimensione della finestra di contesto in token (il predefinito dipende dal modello, spesso 2048–4096) |
temperature |
Casualità: 0 = deterministico, 1 = creativo |
top_p |
Soglia di campionamento a nucleo |
top_k |
Limita il vocabolario ai primi-K token |
num_predict |
Numero massimo di token da generare (-1 = illimitato) |
repeat_penalty |
Penalità per la ripetizione dei token |
Input multilinea nel REPL
Incorpora il testo in tripli apici (""") per inserire un prompt multilinea senza inviarlo prematuramente:
>>> """Riassumi questo in una frase:
... La veloce volpe marrone salta sopra il cane pigro.
... È successo un martedì.
... """
Modelli multimodali (immagini)
Per i modelli abilitati alla visione (ad es. gemma3, llava), passa un percorso di immagine direttamente nel prompt:
ollama run gemma3 "C'è in questa immagine? /home/user/screenshot.png"
Generazione di embeddings tramite CLI
I modelli di embedding outputtano un array JSON invece di testo. Passa il testo direttamente per embedding rapidi one-off:
echo "Hello world" | ollama run nomic-embed-text
Per carichi di lavoro di embedding in produzione usa l’endpoint REST /api/embeddings o il client Python invece.
Forza l’output JSON (–format)
ollama run llama3.2 --format json "Elenco 5 capitali come JSON"
Il modello istruito per restituire JSON valido. Utile quando si invia l’output a jq o a uno script che si aspetta dati strutturati.
Comando Ollama stop
Questo comando ferma il modello specificato in esecuzione.
ollama stop llama3.1:8b-instruct-q8_0
Ollama espelle i modelli automaticamente dopo un certo tempo.
Puoi specificare questo tempo, di default è 4 minuti.
Se non vuoi aspettare il tempo rimanente, potresti voler usare questo comando ollama stop.
Puoi anche espellere il modello dalla VRAM chiamando l’endpoint API /generate con il parametro keep_alive=0, vedi sotto per la descrizione e l’esempio.
Comando Ollama ps
ollama ps mostra i modelli e le sessioni attualmente in esecuzione (utile per debuggare “perché la mia VRAM è piena?”).
ollama ps
L’esempio dell’output di ollama ps è qui sotto:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 tra 4 minuti
Qui vedi sul mio PC che gpt-oss:20b si adatta perfettamente ai 16GB di VRAM della mia GPU, occupando solo 14GB.
Se eseguo ollama run gpt-oss:120b e poi chiamo ollama ps, il risultato non sarà così luminoso:
il 78% dei layer è sulla CPU, e questo è solo con la finestra di contesto di 4096 token. Sarà peggio se avrò bisogno di aumentare il contesto.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 tra 4 minuti
Comando Ollama launch (integrazioni AI per il coding)
ollama launch è un comando introdotto in Ollama v0.15 (Gennaio 2026) che ti offre una configurazione senza configurazione, in una riga, per popolari assistenti di coding AI che girano sul tuo server locale Ollama.
Perché usare ollama launch?
Prima di ollama launch, collegare un agente di coding come Claude Code o Codex a un backend Ollama locale significava impostare manualmente le variabili di ambiente, puntare lo strumento al giusto endpoint API e scegliere un modello compatibile. ollama launch gestisce tutto questo per te in modo interattivo.
Se già esegui Ollama localmente e vuoi un assistente di coding agentico senza pagare chiamate API o inviare codice al cloud, ollama launch è la via più rapida.
Integrazioni supportate
| Integrazione | Cos’è |
|---|---|
claude |
Claude Code di Anthropic — assistente di coding agentico |
codex |
Assistente di coding CLI di OpenAI Codex |
droid |
Agente di coding AI di Factory |
opencode |
Assistente di coding open-source |
Uso di base
# Selettore interattivo — scegli un'integrazione da un menu
ollama launch
# Avvia un'integrazione specifica direttamente
ollama launch claude
# Avvia con un modello specifico
ollama launch claude --model qwen3-coder
# Configura l'integrazione senza avviarla (utile per ispezionare le impostazioni)
ollama launch droid --config
Modelli raccomandati
Gli agenti di coding hanno bisogno di una finestra di contesto lunga per contenere il contesto dell’intero file e la cronologia delle conversazioni multi-turno. Ollama raccomanda modelli con almeno 64 000 token di contesto:
| Modello | Note |
|---|---|
qwen3-coder |
Forte prestazioni nel coding, contesto lungo, gira localmente |
glm-4.7-flash |
Opzione locale veloce |
devstral:24b |
Modello focalizzato sul coding di Mistral |
Se la tua GPU non può ospitare il modello, Ollama offre anche varianti ospitate nel cloud (ad es. qwen3-coder:480b-cloud) che si integrano allo stesso modo ma instradano l’inferenza al livello cloud di Ollama — richiedendo ollama signin.
Esempio: esecuzione di Claude Code localmente con Ollama
# 1. Assicurati che il modello sia disponibile
ollama pull qwen3-coder
# 2. Avvia Claude Code contro di esso
ollama launch claude --model qwen3-coder
Ollama imposta le variabili di ambiente necessarie e avvia Claude Code puntando a http://localhost:11434 automaticamente.
Puoi poi usare Claude Code esattamente come faresti normalmente — l’unica differenza è che l’inferenza avviene sul tuo hardware.
Manopole delle prestazioni (OLLAMA_NUM_PARALLEL)
Se vedi code o timeout sotto carico, la prima manopola da imparare è OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= quante richieste Ollama esegue in parallelo.- Un valore più alto può aumentare il throughput, ma può aumentare la pressione sulla VRAM e i picchi di latenza.
Esempio rapido:
OLLAMA_NUM_PARALLEL=2 ollama serve
Per una spiegazione completa (incluso le strategie di tuning e i modi di fallimento), vedi:
Rilascio del modello Ollama dalla VRAM (keep_alive)
Quando un modello è caricato in VRAM (memoria GPU), rimane lì anche dopo aver finito di usarlo. Per rilasciare esplicitamente un modello dalla VRAM e liberare memoria GPU, puoi inviare una richiesta all’API Ollama con keep_alive: 0.
- Rilascia Modello dalla VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "NOME_MODELLO", "keep_alive": 0}'
Sostituisci NOME_MODELLO con il tuo nome modello effettivo, ad esempio:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Rilascia Modello dalla VRAM usando Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Questo è particolarmente utile quando:
- Hai bisogno di liberare memoria GPU per altre applicazioni
- Stai eseguendo più modelli e vuoi gestire l’uso della VRAM
- Hai finito di usare un modello grande e vuoi rilasciare le risorse immediatamente
Nota: Il parametro keep_alive controlla quanto tempo (in secondi) un modello rimane caricato in memoria dopo l’ultima richiesta. Impostandolo a 0 scarica immediatamente il modello dalla VRAM.
Se preferisci evitare completamente lo strato di astrazione di Ollama e vuoi il controllo diretto su quale modello GGUF è residente in qualsiasi momento, llama-server router mode copre l’approccio nativo di llama.cpp per il switching dinamico dei modelli.
Personalizzazione dei modelli Ollama (prompt di sistema, Modelfile)
-
Imposta Prompt di Sistema: All’interno del REPL Ollama, puoi impostare un prompt di sistema per personalizzare il comportamento del modello:
>>> /set system Per tutte le domande, rispondi in inglese semplice evitando il gergo tecnico il più possibile >>> /save ipe >>> /byePoi, esegui il modello personalizzato:
ollama run ipeQuesto imposta un prompt di sistema e salva il modello per un uso futuro.
-
Crea File Modello Personalizzato: Crea un file di testo (ad es.,
custom_model.txt) con la seguente struttura:FROM llama3.1 SYSTEM [Le tue istruzioni personalizzate qui]Poi, esegui:
ollama create mymodel -f custom_model.txt ollama run mymodelQuesto crea un modello personalizzato basato sulle istruzioni nel file".
Ollama signin e signout (autenticazione registro)
ollama signin
ollama signout
ollama signin autentica la tua installazione locale Ollama con il registro Ollama su ollama.com. Una volta effettuato l’accesso, il client memorizza le credenziali localmente e le riutilizza automaticamente per i comandi successivi.
Cosa sblocca signin:
- Scaricare e caricare modelli privati dal tuo account o organizzazione.
- Usare modelli ospitati nel cloud (ad es.
qwen3-coder:480b-cloud) che sono troppo grandi per girare localmente. - Pubblicare modelli sul registro con
ollama push.
Alternativa: autenticazione chiave API
Se stai eseguendo Ollama in una pipeline CI o su un server headless dove l’interattivo ollama signin non è pratico, crea una chiave API nelle impostazioni del tuo account Ollama e esponila come variabile di ambiente:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
La variabile OLLAMA_API_KEY viene rilevata automaticamente da ogni comando Ollama e richiesta API — non serve eseguire ollama signin su ogni macchina.
Uso del comando Ollama run con file (riassunto, reindirizzamento)
-
Riassumi Testo da un File:
ollama run llama3.2 "Riassumi il contenuto di questo file in 50 parole." < input.txtQuesto comando riassume il contenuto di
input.txtusando il modello specificato. -
Registra le Risposte del Modello in un File:
ollama run llama3.2 "Raccontami dell'energia rinnovabile." > output.txtQuesto comando salva la risposta del modello su
output.txt.
Casi d’uso CLI Ollama (generazione testo, analisi)
-
Generazione Testo:
- Riassumere un file di testo grande:
ollama run llama3.2 "Riassumi il seguente testo:" < long-document.txt - Generare contenuto:
ollama run llama3.2 "Scrivi un breve articolo sui benefici dell'uso dell'AI nella sanità." > article.txt - Rispondere a domande specifiche:
ollama run llama3.2 "Quali sono le ultime tendenze nell'AI e come influenzeranno la sanità?"
.
- Riassumere un file di testo grande:
-
Elaborazione e Analisi Dati:
- Classificare il testo in sentiment positivo, negativo o neutro:
ollama run llama3.2 "Analizza il sentiment di questa recensione cliente: 'Il prodotto è fantastico, ma la consegna è stata lenta.'" - Categorizzare il testo in categorie predefinite: Usa comandi simili per classificare o categorizzare il testo in base a criteri predefiniti.
- Classificare il testo in sentiment positivo, negativo o neutro:
Uso di Ollama con Python (client e API)
- Installa Libreria Python Ollama:
pip install ollama - Genera Testo Usando Python:
Questo frammento di codice genera testo usando il modello e il prompt specificati.
import ollama response = ollama.generate(model='gemma:2b', prompt='cos'è un qubit?') print(response['response'])
Per un’integrazione Python avanzata, esplora [uso dell’API Web Search di Ollama in Python](https://www.glukhov.org/it/llm-hosting/ollama/ollama-web-search-in-python/ “Padroneggia l’API Web Search nativa di Ollama con Python. Impara a usare le funzioni web_search e web_fetch, crea agenti di ricerca intelligenti con tool calling e integra con server MCP per Cline e Codex. Include esempi di codice completi.), che copre le capacità di ricerca web, tool calling e integrazione con server MCP. Se stai creando applicazioni alimentate da AI, il nostro confronto sugli Assistenti di Coding AI può aiutarti a scegliere gli strumenti giusti per lo sviluppo.
Cerchi un’interfaccia basata sul web? Open WebUI fornisce un’interfaccia self-hosted con capacità RAG e supporto multi-utente. Per deployment in produzione ad alte prestazioni, considera vLLM come alternativa. Per confrontare Ollama con altre scelte di infrastruttura LLM locali e cloud, vedi LLM Hosting: Infrastrutture Locali, Self-Hosted e Cloud Confrontate.
Link Utili
Configurazione e Gestione
Alternative e Confronti
- Hosting Locale LLM: Guida Completa 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & Altri
- vLLM Quickstart: Servizio LLM ad Alte Prestazioni
- Docker Model Runner vs Ollama: Quale Scegliere?
- Primi Segni di Deterioramento di Ollama
Prestazioni e Hardware
- Come Ollama Gestisce le Richieste Parallele
- Come Ollama utilizza le CPU Intel Performance ed Efficient Cores
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto Prestazioni Ollama
- DGX Spark vs. Mac Studio: Uno Sguardo Pratico e Controllato sui Prezzi del Supercomputer AI Personale di NVIDIA
Integrazione e Sviluppo
- Uso dell’API Web Search di Ollama in Python
- Confronto Assistenti di Coding AI
- Open WebUI: Interfaccia LLM Self-Hosted
- Interfacce Chat Open-Source per LLM su Istanze Locali Ollama
- Vincolare LLM con Output Strutturato: Ollama, Qwen3 & Python o Go
- Integrazione di Ollama con Python: Esempi API REST e Client Python
- SDK Go per Ollama - confronto con esempi