Open WebUI: Interfaccia Self-Hosted per LLM
Alternativa self-hosted a ChatGPT per LLM locali
Open WebUI è una potente, estensibile e ricca di funzionalità interfaccia web autohostata per interagire con i modelli linguistici di grandi dimensioni.
Alternativa self-hosted a ChatGPT per LLM locali
Open WebUI è una potente, estensibile e ricca di funzionalità interfaccia web autohostata per interagire con i modelli linguistici di grandi dimensioni.
Prezzi reali in AUD da parte di rivenditori australiani ora
Il NVIDIA DGX Spark (GB10 Grace Blackwell) è ora disponibile in Australia presso principali rivenditori di PC con scorte locali. Se hai seguito le informazioni sui prezzi e la disponibilità globale del DGX Spark, sarai interessato a sapere che i prezzi in Australia vanno da $6.249 a $7.999 AUD a seconda della configurazione di archiviazione e del rivenditore.
Test di Cognee con LLM locali - risultati reali
Cognee è un framework Python per costruire grafi di conoscenza da documenti utilizzando LLM. Ma funziona con modelli autohostati?
Output sicuri dal punto di vista del tipo di LLM con BAML e Instructor
Quando si lavora con i Large Language Models in produzione, ottenere output strutturati e sicuri dal punto di vista dei tipi è fondamentale. Due framework popolari - BAML e Instructor - adottano approcci diversi per risolvere questo problema.
Riflessioni sui modelli LLM per Cognee autoospitati
Scegliere il miglior LLM per Cognee richiede un equilibrio tra la qualità della costruzione dei grafici, i tassi di allucinazione e le limitazioni hardware. Cognee eccelle con modelli più grandi e a bassa allucinazione (32B+) tramite Ollama, ma le opzioni di dimensioni intermedie funzionano per le configurazioni più leggere.
Costruisci agenti di ricerca AI con Python e Ollama
La libreria Python di Ollama ora include funzionalità native di ricerca web OLLama. Con poche righe di codice, puoi arricchire i tuoi LLM locali con informazioni in tempo reale dal web, riducendo le illusioni e migliorando l’accuratezza.
Costruisci agenti di ricerca AI con Go e Ollama
L’API di ricerca web di Ollama ti permette di integrare LLM locali con informazioni in tempo reale dal web. Questa guida ti mostra come implementare le capacità di ricerca web in Go, dal semplice utilizzo dell’API alle funzionalità complete degli agenti di ricerca.
Mastri deployment locale LLM con 12+ strumenti confrontati
Deployimento locale di LLMs è diventato sempre più popolare mentre sviluppatori e organizzazioni cercano una maggiore privacy, una ridotta latenza e un maggiore controllo sulla propria infrastruttura AI.
Distribuisci l'AI aziendale su hardware a basso costo con modelli open source
La democratizzazione dell’AI è arrivata. Con modelli open source come Llama 3, Mixtral e Qwen che ora competono con i modelli proprietari, i team possono costruire potenti infrastrutture AI utilizzando hardware consumer - riducendo i costi mentre mantengono il pieno controllo sulla privacy dei dati e sull’implementazione.
Benchmark GPT-OSS 120b su tre piattaforme AI
Ho trovato alcuni interessanti test di prestazioni su GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio e RTX 4080. Il modello GPT-OSS 120b della libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).
Confronta Docker Model Runner e Ollama per LLM locali
Running large language models (LLMs) locally ha guadagnato popolarità per la privacy, il controllo dei costi e le capacità offline. Il panorama è cambiato significativamente ad aprile 2025 quando Docker ha introdotto Docker Model Runner (DMR), la sua soluzione ufficiale per il deployment dei modelli AI.
Integra Ollama con Go: guida all'SDK, esempi e migliori pratiche per la produzione.
Questo documento fornisce un overview completo dei disponibili Go SDKs per Ollama e confronta i loro set di funzionalità.
Confronto della velocità, dei parametri e delle prestazioni di questi due modelli
Ecco un confronto tra Qwen3:30b e GPT-OSS:20b
che si concentra su seguire le istruzioni e sulle prestazioni, specifiche e velocità:
+ Esempi Specifici Utilizzando LLMs Pensanti
In questo post, esploreremo due modi per connettere la tua applicazione Python a Ollama: 1. Attraverso HTTP REST API; 2. Attraverso la libreria ufficiale Python di Ollama.
Non molto bello.
Ollama’s GPT-OSS models presentano problemi ricorrenti nel gestire l’output strutturato, specialmente quando utilizzati con framework come LangChain, OpenAI SDK, vllm e altri.
Un paio di modi per ottenere un output strutturato da Ollama
Modelli di grandi dimensioni (LLMs) sono potenti, ma in produzione raramente desideriamo paragrafi liberi. Invece, vogliamo dati prevedibili: attributi, fatti o oggetti strutturati che possiamo alimentare in un’app. Questo è LLM Structured Output.