Vane è una delle voci più pragmatiche nel settore della “ricerca AI con citazioni”: un motore di risposta ospitato autonomamente che combina il recupero live sul web con LLM locali o cloud, mantenendo l’intera stack sotto il tuo controllo.
Ollama è al suo meglio quando viene trattato come un demone locale: la CLI e le tue applicazioni comunicano con un’API HTTP su loopback, e il resto della rete non viene a sapere della sua esistenza.
Server Ollama con approccio compose-first, GPU e persistenza.
Ollama funziona egregiamente su hardware nudo (bare metal). Diventa ancora più interessante quando lo si tratta come un servizio: un endpoint stabile, versioni bloccate, archiviazione persistente e una GPU che è disponibile o non lo è.
HTTPS per Ollama senza interrompere le risposte in streaming.
Eseguire Ollama dietro un proxy inverso è il modo più semplice per ottenere HTTPS, un controllo degli accessi opzionale e un comportamento di streaming prevedibile.
Se stai approfondendo la generazione potenziata dal recupero (RAG), questa sezione illustra le embeddings testuali in termini semplici: cosa sono, come si integrano nella ricerca e nel recupero, e come invocare due configurazioni locali comuni da Python utilizzando Ollama o un’API HTTP compatibile con OpenAI (come espongono molti server basati su llama.cpp).
Test OpenCode LLM — statistiche sulla codifica e sulla precisione
Ho testato come funziona OpenCode con diversi LLM ospitati localmente su Ollama e llama.cpp, e per confronto ho aggiunto alcuni modelli gratuiti di OpenCode Zen.
OpenClaw è un assistente AI self-hosted progettato per essere eseguito con runtime LLM locali come Ollama o con modelli basati sul cloud come Claude Sonnet.
Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.
A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.
L’hosting self-hosted di LLM mantiene i dati, i modelli e l’inferenza sotto il tuo controllo: un percorso pratico verso sovrainità AI per team, aziende e nazioni.
Test della velocità del modello LLM sull'RTX 4080 con 16 GB di VRAM
Eseguire grandi modelli linguistici in locale ti offre privacy, capacità offline e zero costi API.
Questo benchmark rivela esattamente cosa si può aspettare da 14 modelli popolari
LLMs su Ollama su un RTX 4080.
L’ecosistema Go continua a prosperare grazie a progetti innovativi che spaziano dall’AI, alle applicazioni auto-hosted e all’infrastruttura per sviluppatori. Questa panoramica analizza i repository Go più popolari su GitHub di questo mese.
Output sicuri dal punto di vista del tipo di LLM con BAML e Instructor
Quando si lavora con i Large Language Models in produzione, ottenere output strutturati e sicuri dal punto di vista dei tipi è fondamentale.
Due framework popolari - BAML e Instructor - adottano approcci diversi per risolvere questo problema.