Ollama

Vane è una delle voci più pragmatiche nel settore della “ricerca AI con citazioni”: un motore di risposta ospitato autonomamente che combina il recupero live sul web con LLM locali o cloud, mantenendo l’intera stack sotto il tuo controllo.

Accesso remoto a Ollama tramite Tailscale o WireGuard, senza porte pubbliche.

Ollama è al suo meglio quando viene trattato come un demone locale: la CLI e le tue applicazioni comunicano con un’API HTTP su loopback, e il resto della rete non viene a sapere della sua esistenza.

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Ollama funziona egregiamente su hardware nudo (bare metal). Diventa ancora più interessante quando lo si tratta come un servizio: un endpoint stabile, versioni bloccate, archiviazione persistente e una GPU che è disponibile o non lo è.

Ollama dietro un reverse proxy con Caddy o Nginx per lo streaming HTTPS

Eseguire Ollama dietro un proxy inverso è il modo più semplice per ottenere HTTPS, un controllo degli accessi opzionale e un comportamento di streaming prevedibile.

Embedding testuali per RAG e ricerca - Python, Ollama, API compatibili con OpenAI

Se stai approfondendo la generazione potenziata dal recupero (RAG), questa sezione illustra le embeddings testuali in termini semplici: cosa sono, come si integrano nella ricerca e nel recupero, e come invocare due configurazioni locali comuni da Python utilizzando Ollama o un’API HTTP compatibile con OpenAI (come espongono molti server basati su llama.cpp).

I migliori LLM per OpenCode: da Gemma 4 a Qwen 3.6, testati in locale

Ho testato come funziona OpenCode con diversi LLM ospitati localmente su Ollama e llama.cpp, e per confronto ho aggiunto alcuni modelli gratuiti di OpenCode Zen.

OpenClaw Guida Rapida: Installazione con Docker (Ollama GPU o Claude + CPU)

OpenClaw è un assistente AI self-hosted progettato per essere eseguito con runtime LLM locali come Ollama o con modelli basati sul cloud come Claude Sonnet.

Hosting LLM nel 2026: confronto tra infrastrutture locali, self-hosted e cloud

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

Prestazioni degli LLM nel 2026: benchmark, colli di bottiglia e ottimizzazione

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

L’hosting self-hosted di LLM mantiene i dati, i modelli e l’inferenza sotto il tuo controllo: un percorso pratico verso sovrainità AI per team, aziende e nazioni.

Confronto delle prestazioni dei modelli LLM su Ollama su GPU con 16 GB di VRAM

Eseguire grandi modelli linguistici in locale ti offre privacy, capacità offline e zero costi API. Questo benchmark rivela esattamente cosa si può aspettare da 14 modelli popolari LLMs su Ollama su un RTX 4080.

Top 19 Progetti Go più popolari su GitHub - Gennaio 2026

L’ecosistema Go continua a prosperare grazie a progetti innovativi che spaziano dall’AI, alle applicazioni auto-hosted e all’infrastruttura per sviluppatori. Questa panoramica analizza i repository Go più popolari su GitHub di questo mese.

Open WebUI: interfaccia self-hosted per LLM

Open WebUI è una potente, estensibile e ricca di funzionalità interfaccia web autoospitata per interagire con i grandi modelli linguistici.

Prezzo DGX Spark AU: 6.249–7.999 USD presso i principali rivenditori

L' NVIDIA DGX Spark (GB10 Grace Blackwell) è ora disponibile in Australia nei principali rivenditori di PC con scorte locali. Se segui le prezzi e disponibilità globali del DGX Spark, sarà interessante sapere che i prezzi in Australia variano da 6.249 a 7.999 AUD a seconda della configurazione di archiviazione e del rivenditore.

Self-Hosting Cognee: Scegliere LLM su Ollama

Cognee è un framework Python per costruire grafi di conoscenza da documenti utilizzando LLM. Ma funziona con modelli auto-hostati?

BAML vs Insegnante: Output di LLM Strutturati

Quando si lavora con i Large Language Models in produzione, ottenere output strutturati e sicuri dal punto di vista dei tipi è fondamentale. Due framework popolari - BAML e Instructor - adottano approcci diversi per risolvere questo problema.

Ollama

Guida rapida per Vane (Perplexica 2.0) con Ollama e llama.cpp

Accesso remoto a Ollama tramite Tailscale o WireGuard, senza porte pubbliche.

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Ollama dietro un reverse proxy con Caddy o Nginx per lo streaming HTTPS

Embedding testuali per RAG e ricerca - Python, Ollama, API compatibili con OpenAI

I migliori LLM per OpenCode: da Gemma 4 a Qwen 3.6, testati in locale

OpenClaw Guida Rapida: Installazione con Docker (Ollama GPU o Claude + CPU)

Hosting LLM nel 2026: confronto tra infrastrutture locali, self-hosted e cloud

Prestazioni degli LLM nel 2026: benchmark, colli di bottiglia e ottimizzazione

Autoservizio di LLM e Sovranità dell'AI

Confronto delle prestazioni dei modelli LLM su Ollama su GPU con 16 GB di VRAM

Top 19 Progetti Go più popolari su GitHub - Gennaio 2026

Open WebUI: interfaccia self-hosted per LLM

Prezzo DGX Spark AU: 6.249–7.999 USD presso i principali rivenditori

Self-Hosting Cognee: Scegliere LLM su Ollama

BAML vs Insegnante: Output di LLM Strutturati