AI - Page 2 - Rost Glukhov | Sito personale e blog tecnico

Sistemi AI: Assistenti Self-Hosted, RAG e Infrastruttura Locale

La maggior parte delle configurazioni locali per l’IA inizia con un modello e un runtime.

Recensione di Oh My Opencode: Risultati onesti, rischi di fatturazione e quando ne vale la pena

Oh My Opencode promette un “team virtuale di sviluppatori AI” — Sisyphus che orchestra specialisti, compiti eseguiti in parallelo e la magica parola chiave ultrawork che attiva tutto.

Approfondimento e guida ai modelli per gli agenti specializzati di Oh My Opencode

Il salto di capacità più significativo in OpenCode deriva dagli agenti specializzati: una separazione deliberata tra orchestrazione, pianificazione, esecuzione e ricerca.

Guida Rapida Oh My Opencode per OpenCode: Installazione, Configurazione ed Esecuzione

Oh My Opencode trasforma OpenCode in un harness per la programmazione multi-agente: un orchestratore assegna il lavoro ad agenti specializzati che si eseguono in parallelo.

I migliori LLM per OpenCode: da Gemma 4 a Qwen 3.6, testati in locale

Ho testato come funziona OpenCode con diversi LLM ospitati localmente su Ollama e llama.cpp, e per confronto ho aggiunto alcuni modelli gratuiti di OpenCode Zen.

Guida Rapida all'Assistente per la Codifica OpenHands: Installazione, Flag della CLI ed Esempi

OpenHands è una piattaforma open-source, agnostica rispetto al modello, per agenti di sviluppo software guidati dall’IA. Permette a un agente di comportarsi più come un partner di programmazione che come un semplice strumento di autocompletamento.

LocalAI QuickStart: Esegui Localmente Modelli Linguistici Compatibili con OpenAI

LocalAI è un server di inferenza self-hosted e local-first progettato per comportarsi come un’API OpenAI plug-and-play per eseguire carichi di lavoro di IA sull’hardware proprio (laptop, workstation o server in locale).

Guida rapida a llama.cpp con CLI e Server

Torno sempre su llama.cpp per l’inferenza locale: offre un controllo che Ollama e altri astraggono, e semplicemente funziona. È facile eseguire modelli GGUF in modo interattivo con llama-cli o esporre un’API HTTP compatibile con OpenAI con llama-server.

Strumenti per Sviluppatori AI: La Guida Completa allo Sviluppo Potenziato dall'IA

L’Intelligenza Artificiale sta ridisegnando il modo in cui il software viene scritto, revisionato, distribuito e mantenuto. Dai assistenti di programmazione basati sull’AI all’automazione GitOps e ai flussi di lavoro DevOps, gli sviluppatori si affidano ora a strumenti potenziati dall’AI lungo l’intero ciclo di vita del software.

Airtable per sviluppatori e DevOps - Piani, API, Webhook e esempi in Go/Python

Airtable è meglio considerata come una piattaforma low-code costruita intorno a un’interfaccia collaborativa “simile a un foglio di calcolo” - ideale per creare rapidamente strumenti operativi (tracciatori interni, CRM leggeri, pipeline di contenuti, code di valutazione AI) dove gli sviluppatori non devono un’interfaccia amichevole, ma gli sviluppatori necessitano anche di un’API per l’automazione e l’integrazione.

OpenCode Quickstart: Installazione, configurazione e utilizzo dell'agente AI per la codifica nel terminale

OpenCode è un agente di programmazione AI open source che puoi eseguire nel terminale (TUI + CLI) con superfici desktop e IDE opzionali. Questa è la Guida rapida OpenCode: installazione, verifica, connessione a un modello/fornitore ed esecuzione di flussi di lavoro reali (CLI + API).

Monitoraggio dell'inferenza LLM in produzione (2026): Prometheus e Grafana per vLLM, TGI e llama.cpp

L’inferenza LLM sembra “un altro API” — fino a quando i picchi di latenza, le code si ingorgano e le tue GPU rimangono al 95% di memoria senza una spiegazione ovvia.

OpenClaw Guida Rapida: Installazione con Docker (Ollama GPU o Claude + CPU)

OpenClaw è un assistente AI self-hosted progettato per essere eseguito con runtime LLM locali come Ollama o con modelli basati sul cloud come Claude Sonnet.

OpenClaw: Analisi di un Assistente AI Auto-Gestito come Sistema Reale

La maggior parte delle configurazioni locali per l’AI inizia allo stesso modo: un modello, un runtime e un’interfaccia di chat.

Osservabilità per sistemi LLM: metriche, tracce, log e test in produzione

LLM systems falliscono in modi che la tradizionale monitorizzazione degli API non riesce a rilevare — le code si riempiono in silenzio, la memoria GPU si saturano molto prima che il CPU appaia occupata, e la latenza aumenta a livello di batching anziché a livello di applicazione. Questa guida copre una strategia end-to-end strategia di osservabilità per l’inferenza degli LLM e le applicazioni LLM: cosa misurare, come strumentarla con Prometheus, OpenTelemetry e Grafana, e come distribuire la pipeline di telemetria su larga scala.

Tutorial sulla Generazione Aumentata dal Recupero (RAG): Architettura, Implementazione e Guida alla Produzione

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.