LLM - Page 4 - Rost Glukhov | Sito personale e blog tecnico

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Ollama funziona egregiamente su hardware nudo (bare metal). Diventa ancora più interessante quando lo si tratta come un servizio: un endpoint stabile, versioni bloccate, archiviazione persistente e una GPU che è disponibile o non lo è.

Ollama dietro un reverse proxy con Caddy o Nginx per lo streaming HTTPS

Eseguire Ollama dietro un proxy inverso è il modo più semplice per ottenere HTTPS, un controllo degli accessi opzionale e un comportamento di streaming prevedibile.

Embedding testuali per RAG e ricerca - Python, Ollama, API compatibili con OpenAI

Se stai approfondendo la generazione potenziata dal recupero (RAG), questa sezione illustra le embeddings testuali in termini semplici: cosa sono, come si integrano nella ricerca e nel recupero, e come invocare due configurazioni locali comuni da Python utilizzando Ollama o un’API HTTP compatibile con OpenAI (come espongono molti server basati su llama.cpp).

Guida rapida a SGLang: installazione, configurazione e distribuzione di LLM tramite l'API OpenAI

SGLang è un framework di serving ad alte prestazioni per grandi modelli linguistici e modelli multimodali, progettato per fornire inferenza a bassa latenza e alto throughput in tutto, da una singola GPU a cluster distribuiti.

Guida introduttiva al Model Switcher di llama.swap per LLM locali compatibili con OpenAI

Presto ti troverai a gestire vLLM, llama.cpp e altro ancora, con ogni stack sul proprio porto. Tutto il downstream desidera comunque un URL base /v1; altrimenti continuerai a spostare porti, profili e script ad hoc. llama-swap è il proxy /v1 che precede questi stack.

Sistemi AI: Assistenti Self-Hosted, RAG e Infrastruttura Locale

La maggior parte delle configurazioni locali di AI inizia con un modello e un runtime.

Recensione di Oh My Opencode: Risultati onesti, rischi di fatturazione e quando ne vale la pena

Oh My Opencode promette un “team virtuale di sviluppatori AI” — Sisyphus che orchestra specialisti, compiti eseguiti in parallelo e la magica parola chiave ultrawork che attiva tutto.

Approfondimento e guida ai modelli per gli agenti specializzati di Oh My Opencode

Il salto di capacità più significativo in OpenCode deriva dagli agenti specializzati: una separazione deliberata tra orchestrazione, pianificazione, esecuzione e ricerca.

Guida Rapida Oh My Opencode per OpenCode: Installazione, Configurazione ed Esecuzione

Oh My Opencode trasforma OpenCode in un harness per la programmazione multi-agente: un orchestratore assegna il lavoro ad agenti specializzati che si eseguono in parallelo.

I migliori LLM per OpenCode: da Gemma 4 a Qwen 3.6, testati in locale

Ho testato come funziona OpenCode con diversi LLM ospitati localmente su Ollama e llama.cpp, e per confronto ho aggiunto alcuni modelli gratuiti da OpenCode Zen.

Guida Rapida all'Assistente per la Codifica OpenHands: Installazione, Flag della CLI ed Esempi

OpenHands è una piattaforma open-source, agnostica rispetto al modello, per agenti di sviluppo software guidati dall’IA. Permette a un agente di comportarsi più come un partner di programmazione che come un semplice strumento di autocompletamento.

LocalAI QuickStart: Esegui Localmente Modelli Linguistici Compatibili con OpenAI

LocalAI è un server di inferenza self-hosted e local-first progettato per comportarsi come un’API OpenAI plug-and-play per eseguire carichi di lavoro di IA sull’hardware proprio (laptop, workstation o server in locale).

Introduzione a llama.cpp con CLI e Server

Torno sempre su llama.cpp per l’inferenza locale: ti offre un controllo che Ollama e altri astraggono, e semplicemente funziona. È facile eseguire modelli GGUF in modo interattivo con llama-cli o esporre un’API HTTP compatibile con OpenAI con llama-server.

Strumenti per sviluppatori AI: la guida completa allo sviluppo potenziato dall'intelligenza artificiale

L’intelligenza artificiale sta ridefinendo il modo in cui il software viene scritto, revisionato, distribuito e mantenuto. Dai assistenti di programmazione basati su AI all’automazione GitOps e ai flussi di lavoro DevOps, gli sviluppatori si affidano ora a strumenti potenziati dall’IA lungo l’intero ciclo di vita del software.

OpenCode Quickstart: Installa, Configura e Usa l'Agente AI di Coding da Terminale

OpenCode è un agente di coding AI open source che puoi eseguire nel terminale (TUI + CLI) con interfacce desktop e IDE opzionali. Questa è la Guida rapida OpenCode: installazione, verifica, connessione a un modello/fornitore ed esecuzione di flussi di lavoro reali (CLI + API).

Monitoraggio dell'inferenza LLM in produzione (2026): Prometheus e Grafana per vLLM, TGI e llama.cpp

L’inferenza LLM sembra “un altro API” — fino a quando i picchi di latenza, le code si ingorgano e le tue GPU rimangono al 95% di memoria senza una spiegazione ovvia.