Scheda di riferimento della CLI di Ollama: ls, serve, run, ps e altri comandi (aggiornamento 2026)

Aggiornata l'elenco dei comandi Ollama - ls, ps, run, serve, ecc.

Indice

Questa scheda di riferimento per Ollama CLI si concentra sui comandi che utilizzi ogni giorno (ollama ls, ollama serve, ollama run, ollama ps, gestione dei modelli e flussi di lavoro comuni), con esempi pronti per il copia-incolla.

Include anche una breve sezione sulle “manopole delle prestazioni” per aiutarti a scoprire (e approfondire) OLLAMA_NUM_PARALLEL e le relative impostazioni.

ollama cheatsheet

Questa scheda di riferimento su Ollama si concentra sui comandi CLI, sulla gestione dei modelli e sulla personalizzazione, ma include anche alcune chiamate curl.

Per una visione completa di dove si inserisce Ollama tra le opzioni locali, self-hosted e cloud—inclusi vLLM, Docker Model Runner, LocalAI e provider cloud—vedi LLM Hosting: Infrastrutture Locali, Self-Hosted e Cloud Confrontate. Se stai confrontando diverse soluzioni di hosting locale per LLM, consulta il nostro confronto completo tra Ollama, vLLM, LocalAI, Jan, LM Studio e altri. Per chi cerca alternative alle interfacce a riga di comando, Docker Model Runner offre un approccio diverso al deployment dei LLM.

Installazione di Ollama (download e installazione CLI)

  • Opzione 1: Download dal sito web
    • Visita ollama.com e scarica l’installer per il tuo sistema operativo (Mac, Linux o Windows).
  • Opzione 2: Installazione tramite riga di comando
    • Per gli utenti Mac e Linux, usa il comando:
curl -fsSL https://ollama.com/install.sh | sh
  • Segui le istruzioni a schermo e inserisci la tua password se richiesto.

Requisiti di sistema per Ollama (RAM, archiviazione, CPU)

Per carichi di lavoro AI seri, potresti voler confrontare le opzioni hardware. Abbiamo benchmarkato le prestazioni di NVIDIA DGX Spark vs Mac Studio vs RTX-4080 con Ollama, e se stai considerando un investimento in hardware di fascia alta, il nostro confronto su prezzi e capacità di DGX Spark fornisce un’analisi dei costi dettagliata.

Comandi CLI di base di Ollama

Comando Descrizione
ollama serve Avvia il server Ollama (porta predefinita 11434).
ollama run <model> Esegue il modello specificato in un REPL interattivo.
ollama pull <model> Scarica il modello specificato sul tuo sistema.
ollama push <model> Carica un modello sul registro Ollama.
ollama list Elenca tutti i modelli scaricati. Equivalente a ollama ls.
ollama ps Mostra i modelli attualmente in esecuzione (caricati).
ollama stop <model> Ferma (scarica) un modello in esecuzione.
ollama rm <model> Rimuove un modello dal tuo sistema.
ollama cp <source> <dest> Copia un modello con un nuovo nome localmente.
ollama show <model> Visualizza i dettagli su un modello (architettura, parametri, template, ecc.).
ollama create <model> Crea un nuovo modello da un Modelfile.
ollama launch [integration] Avvio senza configurazione di assistenti di coding AI (Claude Code, Codex, Droid, OpenCode).
ollama signin Autentica con il registro Ollama (abilita modelli privati e cloud).
ollama signout Disconnetti dal registro Ollama.
ollama help Fornisce aiuto su qualsiasi comando.

Link rapidi: Comando Ollama serve · Comando Ollama launch · Comando Ollama run · Flag Ollama run · Comando Ollama ps · Comando Ollama show · Ollama signin · Base CLI Ollama · Manopole delle prestazioni (OLLAMA_NUM_PARALLEL) · Approfondimento sulle richieste parallele

Ollama CLI (cos’è)

Ollama CLI è l’interfaccia a riga di comando per gestire i modelli ed eseguirli/ospitarli localmente. La maggior parte dei flussi di lavoro si riduce a:

  • Avvia il server: ollama serve
  • Esegui un modello: ollama run <model>
  • Vedi cosa è caricato/in esecuzione: ollama ps
  • Gestisci i modelli: ollama pull, ollama list, ollama rm

Gestione dei modelli Ollama: comandi pull e list

Elenca Modelli:

ollama list

lo stesso come:

ollama ls

Questo comando elenca tutti i modelli scaricati sul tuo sistema, con le loro dimensioni dei file sul tuo hdd/ssd, come

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 settimane fa     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 settimane fa     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 settimane fa     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 settimane fa     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 settimane fa     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 settimane fa     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 settimane fa     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 settimane fa     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 settimane fa  

Scarica un Modello: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Questo comando scarica il modello specificato (ad esempio, Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) sul tuo sistema. I file del modello potrebbero essere piuttosto grandi, quindi tieni d’occhio lo spazio utilizzato dai modelli sull’hard disk o ssd. Potresti persino voler spostare tutti i modelli Ollama dalla tua directory home a un’unità più grande e migliore

Carica un Modello: ollama push

ollama push my-custom-model

Carica un modello locale sul registro Ollama affinché altri possano scaricarlo. Devi prima effettuare l’accesso (ollama signin) e il nome del modello deve essere prefissato con il tuo nome utente Ollama, ad esempio myuser/my-model. Usa --insecure se stai caricando su un registro privato tramite HTTP:

ollama push myuser/my-model --insecure

Copia un Modello: ollama cp

ollama cp llama3.2 my-llama3-variant

Crea una copia locale di un modello con un nuovo nome senza dover riscaricare nulla. Questo è utile prima di modificare un Modelfile — copia prima, personalizza la copia e mantieni l’originale intatto:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Comando Ollama show

ollama show stampa informazioni su un modello scaricato.

ollama show qwen3:14b

Di default stampa la scheda del modello (architettura, lunghezza del contesto, lunghezza dell’embedding, quantizzazione, ecc.). Ci sono tre flag utili:

Flag Cosa mostra
--modelfile Il Modelfile completo usato per creare il modello (righe FROM, SYSTEM, TEMPLATE, PARAMETER)
--parameters Solo il blocco dei parametri (ad es. num_ctx, temperature, token stop)
--verbose Metadati estesi inclusi le forme dei tensori e il conteggio dei layer
# Vedi esattamente con quale prompt di sistema e template è stato costruito un modello
ollama show deepseek-r1:8b --modelfile

# Controlla la dimensione della finestra di contesto e altri parametri di inferenza
ollama show qwen3:14b --parameters

# Dettaglio completo a livello di tensore (utile quando si debugga la quantizzazione)
ollama show llama3.2 --verbose

L’output --modelfile è particolarmente utile prima di personalizzare un modello: puoi copiare il Modelfile di base e modificare da lì invece di scriverne uno da zero.

Comando Ollama serve

ollama serve avvia il server locale Ollama (porta HTTP predefinita 11434).

ollama serve

Comando “ollama serve” (esempio compatibile con systemd):

# imposta le variabili di ambiente, poi avvia il server
# rende ollama disponibile sull'indirizzo IP dell'host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Comando Ollama run

Esegui un Modello:

ollama run gpt-oss:20b

Questo comando avvia il modello specificato e apre un REPL interattivo per l’interazione. Vuoi capire come Ollama gestisce più richieste concorrenti? Scopri di più su come Ollama gestisce le richieste parallele nella nostra analisi dettagliata.

ollama run esegue un modello in una sessione interattiva, quindi nel caso di gpt-oss:120b vedresti qualcosa come

$ ollama run gpt-oss:120b
>>> Invia un messaggio (/? per aiuto)

puoi digitare le tue domande o comandi e il modello risponderà.

>>> chi sei?
Pensando...
L'utente chiede "chi sei?". Domanda semplice. Dovrei rispondere come ChatGPT, un modello linguistico AI, addestrato da OpenAI, 
ecc. Fornisci una breve introduzione. Probabilmente chiedi se hanno bisogno di aiuto.
...pensamento completato.

Sono ChatGPT, un modello linguistico AI creato da OpenAI. Sono stato addestrato su un'ampia gamma di testi per poter aiutare 
a rispondere a domande, fare brainstorming di idee, spiegare concetti, scrivere bozze, risolvere problemi e molto altro. Pensaci 
come a un assistente virtuale versatile—qui per fornire informazioni, supporto e conversazione quando ne hai 
bisogno. Come posso aiutarti oggi?

>>> Invia un messaggio (/? per aiuto)

Per uscire dalla sessione interattiva di ollama, premi Ctrl+D, oppure puoi digitare /bye, con lo stesso risultato:

>>> /bye
$ 

Esempi del comando Ollama run

Per eseguire un modello e fare una singola domanda in modalità non interattiva:

printf "Dammi 10 one-liner bash per l'analisi dei log.\n" | ollama run llama3.2

Se vuoi vedere una risposta LLM dettagliata e verbosa nella sessione ollama - esegui il modello con il parametro --verbose o -v:

$ ollama run gpt-oss:20b --verbose
>>> chi sei?
Pensando...
Dobbiamo rispondere a una domanda semplice: "chi sei?" L'utente sta chiedendo "chi sei?" Possiamo rispondere che 
siamo ChatGPT, un modello linguistico di grandi dimensioni addestrato da OpenAI. Possiamo anche menzionare le capacità. L'utente si aspetta 
probabilmente una breve introduzione. Manteniamolo amichevole.
...pensamento completato.

Sono ChatGPT, un modello linguistico di grandi dimensioni creato da OpenAI. Sono qui per aiutare a rispondere a domande, offrire spiegazioni, 
fare brainstorming di idee e chattare su un'ampia gamma di argomenti—dalla scienza alla storia, dalla scrittura creativa 
ai consigli quotidiani. Fammi solo sapere di cosa vuoi parlare!

durata totale:       1.118585707s
durata caricamento:        106.690543ms
conteggio valutazione prompt:    71 token(s)
durata valutazione prompt: 30.507392ms
tasso valutazione prompt:     2327.30 tokens/s
conteggio valutazione:           132 token(s)
durata valutazione:        945.801569ms
tasso valutazione:            139.56 tokens/s
>>> /bye
$ 

Sì, esatto, sono 139 token al secondo. Il modello gpt-oss:20b è molto veloce. Se, come me, hai una GPU con 16GB di VRAM - vedi i dettagli del confronto delle velocità LLM in Migliori LLM per Ollama su GPU 16GB VRAM.

Suggerimento: Se vuoi che il modello sia disponibile tramite HTTP per più applicazioni, avvia il server con ollama serve e usa il client API invece di lunghe sessioni interattive.

Flag del comando Ollama run (riferimento completo)

Flag Descrizione
--verbose / -v Stampa le statistiche temporali (token/s, tempo di caricamento, ecc.) dopo ogni risposta
-p, --parameters Passa i parametri del modello inline senza un Modelfile (vedi sotto)
--format string Forza un formato di output specifico, ad es. json
--nowordwrap Disabilita l’avvolgimento automatico delle parole — utile quando si invia l’output a script
--insecure Permette la connessione a un registro tramite HTTP (per registri privati/self-hosted)

Sovrascrivi i parametri del modello senza un Modelfile (-p / –parameters)

Il flag -p ti permette di cambiare i parametri di inferenza a runtime senza creare un Modelfile. Puoi impilare più flag -p:

# Aumenta la finestra di contesto e abbassa la temperatura
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Esegui un task di coding con output deterministico
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Parametri comuni che puoi impostare in questo modo:

Parametro Effetto
num_ctx Dimensione della finestra di contesto in token (il predefinito dipende dal modello, spesso 2048–4096)
temperature Casualità: 0 = deterministico, 1 = creativo
top_p Soglia di campionamento a nucleo
top_k Limita il vocabolario ai primi-K token
num_predict Numero massimo di token da generare (-1 = illimitato)
repeat_penalty Penalità per la ripetizione dei token

Input multilinea nel REPL

Incorpora il testo in tripli apici (""") per inserire un prompt multilinea senza inviarlo prematuramente:

>>> """Riassumi questo in una frase:
... La veloce volpe marrone salta sopra il cane pigro.
... È successo un martedì.
... """

Modelli multimodali (immagini)

Per i modelli abilitati alla visione (ad es. gemma3, llava), passa un percorso di immagine direttamente nel prompt:

ollama run gemma3 "C'è in questa immagine? /home/user/screenshot.png"

Generazione di embeddings tramite CLI

I modelli di embedding outputtano un array JSON invece di testo. Passa il testo direttamente per embedding rapidi one-off:

echo "Hello world" | ollama run nomic-embed-text

Per carichi di lavoro di embedding in produzione usa l’endpoint REST /api/embeddings o il client Python invece.

Forza l’output JSON (–format)

ollama run llama3.2 --format json "Elenco 5 capitali come JSON"

Il modello istruito per restituire JSON valido. Utile quando si invia l’output a jq o a uno script che si aspetta dati strutturati.

Comando Ollama stop

Questo comando ferma il modello specificato in esecuzione.

ollama stop llama3.1:8b-instruct-q8_0

Ollama espelle i modelli automaticamente dopo un certo tempo. Puoi specificare questo tempo, di default è 4 minuti. Se non vuoi aspettare il tempo rimanente, potresti voler usare questo comando ollama stop. Puoi anche espellere il modello dalla VRAM chiamando l’endpoint API /generate con il parametro keep_alive=0, vedi sotto per la descrizione e l’esempio.

Comando Ollama ps

ollama ps mostra i modelli e le sessioni attualmente in esecuzione (utile per debuggare “perché la mia VRAM è piena?”).

ollama ps

L’esempio dell’output di ollama ps è qui sotto:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       tra 4 minuti

Qui vedi sul mio PC che gpt-oss:20b si adatta perfettamente ai 16GB di VRAM della mia GPU, occupando solo 14GB.

Se eseguo ollama run gpt-oss:120b e poi chiamo ollama ps, il risultato non sarà così luminoso: il 78% dei layer è sulla CPU, e questo è solo con la finestra di contesto di 4096 token. Sarà peggio se avrò bisogno di aumentare il contesto.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       tra 4 minuti

Comando Ollama launch (integrazioni AI per il coding)

ollama launch è un comando introdotto in Ollama v0.15 (Gennaio 2026) che ti offre una configurazione senza configurazione, in una riga, per popolari assistenti di coding AI che girano sul tuo server locale Ollama.

Perché usare ollama launch?

Prima di ollama launch, collegare un agente di coding come Claude Code o Codex a un backend Ollama locale significava impostare manualmente le variabili di ambiente, puntare lo strumento al giusto endpoint API e scegliere un modello compatibile. ollama launch gestisce tutto questo per te in modo interattivo.

Se già esegui Ollama localmente e vuoi un assistente di coding agentico senza pagare chiamate API o inviare codice al cloud, ollama launch è la via più rapida.

Integrazioni supportate

Integrazione Cos’è
claude Claude Code di Anthropic — assistente di coding agentico
codex Assistente di coding CLI di OpenAI Codex
droid Agente di coding AI di Factory
opencode Assistente di coding open-source

Uso di base

# Selettore interattivo — scegli un'integrazione da un menu
ollama launch

# Avvia un'integrazione specifica direttamente
ollama launch claude

# Avvia con un modello specifico
ollama launch claude --model qwen3-coder

# Configura l'integrazione senza avviarla (utile per ispezionare le impostazioni)
ollama launch droid --config

Modelli raccomandati

Gli agenti di coding hanno bisogno di una finestra di contesto lunga per contenere il contesto dell’intero file e la cronologia delle conversazioni multi-turno. Ollama raccomanda modelli con almeno 64 000 token di contesto:

Modello Note
qwen3-coder Forte prestazioni nel coding, contesto lungo, gira localmente
glm-4.7-flash Opzione locale veloce
devstral:24b Modello focalizzato sul coding di Mistral

Se la tua GPU non può ospitare il modello, Ollama offre anche varianti ospitate nel cloud (ad es. qwen3-coder:480b-cloud) che si integrano allo stesso modo ma instradano l’inferenza al livello cloud di Ollama — richiedendo ollama signin.

Esempio: esecuzione di Claude Code localmente con Ollama

# 1. Assicurati che il modello sia disponibile
ollama pull qwen3-coder

# 2. Avvia Claude Code contro di esso
ollama launch claude --model qwen3-coder

Ollama imposta le variabili di ambiente necessarie e avvia Claude Code puntando a http://localhost:11434 automaticamente. Puoi poi usare Claude Code esattamente come faresti normalmente — l’unica differenza è che l’inferenza avviene sul tuo hardware.

Manopole delle prestazioni (OLLAMA_NUM_PARALLEL)

Se vedi code o timeout sotto carico, la prima manopola da imparare è OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = quante richieste Ollama esegue in parallelo.
  • Un valore più alto può aumentare il throughput, ma può aumentare la pressione sulla VRAM e i picchi di latenza.

Esempio rapido:

OLLAMA_NUM_PARALLEL=2 ollama serve

Per una spiegazione completa (incluso le strategie di tuning e i modi di fallimento), vedi:

Rilascio del modello Ollama dalla VRAM (keep_alive)

Quando un modello è caricato in VRAM (memoria GPU), rimane lì anche dopo aver finito di usarlo. Per rilasciare esplicitamente un modello dalla VRAM e liberare memoria GPU, puoi inviare una richiesta all’API Ollama con keep_alive: 0.

  • Rilascia Modello dalla VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "NOME_MODELLO", "keep_alive": 0}'

Sostituisci NOME_MODELLO con il tuo nome modello effettivo, ad esempio:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Rilascia Modello dalla VRAM usando Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Questo è particolarmente utile quando:

  • Hai bisogno di liberare memoria GPU per altre applicazioni
  • Stai eseguendo più modelli e vuoi gestire l’uso della VRAM
  • Hai finito di usare un modello grande e vuoi rilasciare le risorse immediatamente

Nota: Il parametro keep_alive controlla quanto tempo (in secondi) un modello rimane caricato in memoria dopo l’ultima richiesta. Impostandolo a 0 scarica immediatamente il modello dalla VRAM.

Se preferisci evitare completamente lo strato di astrazione di Ollama e vuoi il controllo diretto su quale modello GGUF è residente in qualsiasi momento, llama-server router mode copre l’approccio nativo di llama.cpp per il switching dinamico dei modelli.

Personalizzazione dei modelli Ollama (prompt di sistema, Modelfile)

  • Imposta Prompt di Sistema: All’interno del REPL Ollama, puoi impostare un prompt di sistema per personalizzare il comportamento del modello:

    >>> /set system Per tutte le domande, rispondi in inglese semplice evitando il gergo tecnico il più possibile
    >>> /save ipe
    >>> /bye
    

    Poi, esegui il modello personalizzato:

    ollama run ipe
    

    Questo imposta un prompt di sistema e salva il modello per un uso futuro.

  • Crea File Modello Personalizzato: Crea un file di testo (ad es., custom_model.txt) con la seguente struttura:

    FROM llama3.1
    SYSTEM [Le tue istruzioni personalizzate qui]
    

    Poi, esegui:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Questo crea un modello personalizzato basato sulle istruzioni nel file".

Ollama signin e signout (autenticazione registro)

ollama signin
ollama signout

ollama signin autentica la tua installazione locale Ollama con il registro Ollama su ollama.com. Una volta effettuato l’accesso, il client memorizza le credenziali localmente e le riutilizza automaticamente per i comandi successivi.

Cosa sblocca signin:

  • Scaricare e caricare modelli privati dal tuo account o organizzazione.
  • Usare modelli ospitati nel cloud (ad es. qwen3-coder:480b-cloud) che sono troppo grandi per girare localmente.
  • Pubblicare modelli sul registro con ollama push.

Alternativa: autenticazione chiave API

Se stai eseguendo Ollama in una pipeline CI o su un server headless dove l’interattivo ollama signin non è pratico, crea una chiave API nelle impostazioni del tuo account Ollama e esponila come variabile di ambiente:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

La variabile OLLAMA_API_KEY viene rilevata automaticamente da ogni comando Ollama e richiesta API — non serve eseguire ollama signin su ogni macchina.

Uso del comando Ollama run con file (riassunto, reindirizzamento)

  • Riassumi Testo da un File:

    ollama run llama3.2 "Riassumi il contenuto di questo file in 50 parole." < input.txt
    

    Questo comando riassume il contenuto di input.txt usando il modello specificato.

  • Registra le Risposte del Modello in un File:

    ollama run llama3.2 "Raccontami dell'energia rinnovabile." > output.txt
    

    Questo comando salva la risposta del modello su output.txt.

Casi d’uso CLI Ollama (generazione testo, analisi)

  • Generazione Testo:

    • Riassumere un file di testo grande:
      ollama run llama3.2 "Riassumi il seguente testo:" < long-document.txt
      
    • Generare contenuto:
      ollama run llama3.2 "Scrivi un breve articolo sui benefici dell'uso dell'AI nella sanità." > article.txt
      
    • Rispondere a domande specifiche:
      ollama run llama3.2 "Quali sono le ultime tendenze nell'AI e come influenzeranno la sanità?"
      

    .

  • Elaborazione e Analisi Dati:

    • Classificare il testo in sentiment positivo, negativo o neutro:
      ollama run llama3.2 "Analizza il sentiment di questa recensione cliente: 'Il prodotto è fantastico, ma la consegna è stata lenta.'"
      
    • Categorizzare il testo in categorie predefinite: Usa comandi simili per classificare o categorizzare il testo in base a criteri predefiniti.

Uso di Ollama con Python (client e API)

  • Installa Libreria Python Ollama:
    pip install ollama
    
  • Genera Testo Usando Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='cos'è un qubit?')
    print(response['response'])
    
    Questo frammento di codice genera testo usando il modello e il prompt specificati.

Per un’integrazione Python avanzata, esplora [uso dell’API Web Search di Ollama in Python](https://www.glukhov.org/it/llm-hosting/ollama/ollama-web-search-in-python/ “Padroneggia l’API Web Search nativa di Ollama con Python. Impara a usare le funzioni web_search e web_fetch, crea agenti di ricerca intelligenti con tool calling e integra con server MCP per Cline e Codex. Include esempi di codice completi.), che copre le capacità di ricerca web, tool calling e integrazione con server MCP. Se stai creando applicazioni alimentate da AI, il nostro confronto sugli Assistenti di Coding AI può aiutarti a scegliere gli strumenti giusti per lo sviluppo.

Cerchi un’interfaccia basata sul web? Open WebUI fornisce un’interfaccia self-hosted con capacità RAG e supporto multi-utente. Per deployment in produzione ad alte prestazioni, considera vLLM come alternativa. Per confrontare Ollama con altre scelte di infrastruttura LLM locali e cloud, vedi LLM Hosting: Infrastrutture Locali, Self-Hosted e Cloud Confrontate.

Configurazione e Gestione

Alternative e Confronti

Prestazioni e Hardware

Integrazione e Sviluppo

Iscriviti

Ricevi nuovi articoli su sistemi, infrastruttura e ingegneria AI.