Ollama

Guida rapida per Vane (Perplexica 2.0) con Ollama e llama.cpp

Guida rapida per Vane (Perplexica 2.0) con Ollama e llama.cpp

Ricerca AI auto-ospitata con LLM locali

Vane è una delle voci più pragmatiche nel settore della “ricerca AI con citazioni”: un motore di risposta ospitato autonomamente che combina il recupero live sul web con LLM locali o cloud, mantenendo l’intera stack sotto il tuo controllo.

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Server Ollama con approccio compose-first, GPU e persistenza.

Ollama funziona egregiamente su hardware nudo (bare metal). Diventa ancora più interessante quando lo si tratta come un servizio: un endpoint stabile, versioni bloccate, archiviazione persistente e una GPU che è disponibile o non lo è.

BAML vs Insegnante: Output di LLM Strutturati

BAML vs Insegnante: Output di LLM Strutturati

Output sicuri dal punto di vista del tipo di LLM con BAML e Instructor

Quando si lavora con i Large Language Models in produzione, ottenere output strutturati e sicuri dal punto di vista dei tipi è fondamentale. Due framework popolari - BAML e Instructor - adottano approcci diversi per risolvere questo problema.