AI - Page 4 - Rost Glukhov | Sito personale e blog tecnico

Guida rapida a SGLang: installazione, configurazione e distribuzione di LLM tramite l'API OpenAI

SGLang è un framework di serving ad alte prestazioni per grandi modelli linguistici e modelli multimodali, progettato per fornire inferenza a bassa latenza e alto throughput in tutto, da una singola GPU a cluster distribuiti.

Guida introduttiva al Model Switcher di llama.swap per LLM locali compatibili con OpenAI

Presto ti troverai a gestire vLLM, llama.cpp e altro ancora, con ogni stack sul proprio porto. Tutto il downstream desidera comunque un URL base /v1; altrimenti continuerai a spostare porti, profili e script ad hoc. llama-swap è il proxy /v1 che precede questi stack.

Sistemi AI: Assistenti Self-Hosted, RAG e Infrastruttura Locale

La maggior parte delle configurazioni locali di AI inizia con un modello e un runtime.

Recensione di Oh My Opencode: Risultati onesti, rischi di fatturazione e quando ne vale la pena

Oh My Opencode promette un “team virtuale di sviluppatori AI” — Sisyphus che orchestra specialisti, compiti eseguiti in parallelo e la magica parola chiave ultrawork che attiva tutto.

Approfondimento e guida ai modelli per gli agenti specializzati di Oh My Opencode

Il salto di capacità più significativo in OpenCode deriva dagli agenti specializzati: una separazione deliberata tra orchestrazione, pianificazione, esecuzione e ricerca.

Guida Rapida Oh My Opencode per OpenCode: Installazione, Configurazione ed Esecuzione

Oh My Opencode trasforma OpenCode in un harness per la programmazione multi-agente: un orchestratore assegna il lavoro ad agenti specializzati che si eseguono in parallelo.

I migliori LLM per OpenCode: da Gemma 4 a Qwen 3.6, testati in locale

Ho testato come funziona OpenCode con diversi LLM ospitati localmente su Ollama e llama.cpp, e per confronto ho aggiunto alcuni modelli gratuiti da OpenCode Zen.

Guida Rapida all'Assistente per la Codifica OpenHands: Installazione, Flag della CLI ed Esempi

OpenHands è una piattaforma open-source, agnostica rispetto al modello, per agenti di sviluppo software guidati dall’IA. Permette a un agente di comportarsi più come un partner di programmazione che come un semplice strumento di autocompletamento.

LocalAI QuickStart: Esegui Localmente Modelli Linguistici Compatibili con OpenAI

LocalAI è un server di inferenza self-hosted e local-first progettato per comportarsi come un’API OpenAI plug-and-play per eseguire carichi di lavoro di IA sull’hardware proprio (laptop, workstation o server in locale).

Introduzione a llama.cpp con CLI e Server

Torno sempre su llama.cpp per l’inferenza locale: ti offre un controllo che Ollama e altri astraggono, e semplicemente funziona. È facile eseguire modelli GGUF in modo interattivo con llama-cli o esporre un’API HTTP compatibile con OpenAI con llama-server.

Strumenti per sviluppatori AI: la guida completa allo sviluppo potenziato dall'intelligenza artificiale

L’intelligenza artificiale sta ridefinendo il modo in cui il software viene scritto, revisionato, distribuito e mantenuto. Dai assistenti di programmazione basati su AI all’automazione GitOps e ai flussi di lavoro DevOps, gli sviluppatori si affidano ora a strumenti potenziati dall’IA lungo l’intero ciclo di vita del software.

Airtable per sviluppatori e DevOps - Piani, API, Webhook e esempi in Go/Python

Airtable è meglio considerata come una piattaforma low-code costruita intorno a un’interfaccia collaborativa “simile a un foglio di calcolo” - ideale per creare rapidamente strumenti operativi (tracciatori interni, CRM leggeri, pipeline di contenuti, code di valutazione AI) dove gli sviluppatori non devono un’interfaccia amichevole, ma gli sviluppatori necessitano anche di un’API per l’automazione e l’integrazione.

OpenCode Quickstart: Installa, Configura e Usa l'Agente AI di Coding da Terminale

OpenCode è un agente di coding AI open source che puoi eseguire nel terminale (TUI + CLI) con interfacce desktop e IDE opzionali. Questa è la Guida rapida OpenCode: installazione, verifica, connessione a un modello/fornitore ed esecuzione di flussi di lavoro reali (CLI + API).

Monitoraggio dell'inferenza LLM in produzione (2026): Prometheus e Grafana per vLLM, TGI e llama.cpp

L’inferenza LLM sembra “un altro API” — fino a quando i picchi di latenza, le code si ingorgano e le tue GPU rimangono al 95% di memoria senza una spiegazione ovvia.

OpenClaw Quickstart: Installazione con Docker (Ollama GPU o Claude + CPU)

OpenClaw è un assistente AI self-hosted progettato per funzionare con runtime LLM locali come Ollama o con modelli basati su cloud come Claude Sonnet.

OpenClaw: Esaminare un Assistente AI Self-Hosted come Sistema Reale

La maggior parte delle configurazioni locali per l’IA inizia allo stesso modo: un modello, un runtime e un’interfaccia di chat.