Self-Hosting

Problemi di Output Strutturato di Ollama GPT-OSS

Ollama’s GPT-OSS models presentano frequenti problemi nel gestire l’output strutturato, specialmente quando vengono utilizzate con framework come LangChain, OpenAI SDK, vllm e altri.

Limitare gli LLM con Output Strutturati: Ollama, Qwen3 & Python o Go

Modelli di grandi dimensioni (LLMs) sono potenti, ma in produzione raramente desideriamo paragrafi liberi. Invece, vogliamo dati prevedibili: attributi, fatti o oggetti strutturati che possiamo alimentare in un’app. Questo è LLM Structured Output.

Kubuntu vs KDE Neon: Un'analisi tecnica approfondita

Per gli appassionati di KDE Plasma, due distribuzioni Linux vengono spesso menzionate nei dibattiti: Kubuntu e KDE Neon. Potrebbero sembrare simili – entrambe includono KDE Plasma come ambiente desktop predefinito, entrambe si basano su Ubuntu e sono amichevoli per i nuovi utenti.

Allocazione della memoria e pianificazione del modello nella nuova versione di Ollama - v0.12.1

Ecco che confronto quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.

Come modificare un indirizzo IP statico in Ubuntu Server

Questo tutorial ti guiderà attraverso il processo di cambiare l’indirizzo IP statico su un server Ubuntu.

Enshittification di Ollama - I primi segnali

Ollama ha rapidamente diventato uno degli strumenti più popolari per eseguire i modelli LLM localmente. La sua semplice CLI e la gestione semplificata dei modelli l’hanno resa un’opzione di riferimento per gli sviluppatori che desiderano lavorare con i modelli AI al di fuori del cloud.

Come installare il server Mumble su Ubuntu e utilizzarlo su Android e iOS

Mumble è un’applicazione gratuita e open source per la comunicazione vocale tramite IP (VoIP), progettata principalmente per la comunicazione vocale in tempo reale. Utilizza un’architettura client-server in cui gli utenti si connettono a un server condiviso per parlare tra loro.

Interfacce di chat per istanze locali di Ollama

Locally hosted Ollama consente di eseguire modelli linguistici di grandi dimensioni sul proprio computer, ma l’utilizzo tramite riga di comando non è particolarmente utente-friendly. Ecco diversi progetti open-source che forniscono interfacce simili a ChatGPT che si connettono a un Ollama locale.

Applicazioni di monitoraggio GPU in Linux / Ubuntu

Applicazioni per il monitoraggio del carico della GPU:
nvidia-smi vs nvtop vs nvitop vs KDE plasma systemmonitor.

Installare k3s su baremetal - guida passo passo e con terraform

Ecco un passo-passo per l’installazione di un cluster K3s a 3 nodi su server bare-metal (1 master + 2 worker).

Distribuzioni Kubernetes - panoramica rapida su kubeadm, k3s, MicroK8s, Minikube, Talos Linux e RKE2

Confrontando le distribuzioni di self-hosting Kubernetes per l’hosting su server a nudo o server domestici, con particolare attenzione alla facilità di installazione, prestazioni, requisiti del sistema e insieme di funzionalità.

Confronto delle distribuzioni di Kubernetes per un homelab con 3 nodi

Sto confrontando le varianti di Kubernetes auto-hostate adatte all’homelab basato su Ubuntu con 3 nodi (16 GB RAM, 4 core ciascuno), concentrandomi sulla facilità di installazione e manutenzione, il supporto per i volumi persistenti e i LoadBalancer.

Foglio di riferimento per GitHub Actions - Struttura standard e elenco delle azioni più utili

GitHub Actions è una piattaforma di automazione e CI/CD all’interno di GitHub, utilizzata per costruire, testare e distribuire il tuo codice in base a eventi come push, richieste di pull o su un orario predefinito.

Docker Compose Cheat Sheet - Comandi più utili con esempi

Ecco un Docker Compose cheat sheet con esempi annotati per aiutarti a padroneggiare rapidamente i file e i comandi di Compose.

L'uso di Obsidian per la gestione della conoscenza personale

Ecco un’analisi dettagliata di
Obsidian come potente strumento per la gestione personale della conoscenza (PKM),
che spiega l’architettura, le funzionalità, i punti di forza e il modo in cui supporta i moderni flussi di lavoro per la conoscenza.

NVIDIA DGX Spark - nuovo piccolo supercomputer AI

Nvidia sta per rilasciare NVIDIA DGX Spark - un piccolo supercomputer AI basato sull’architettura Blackwell con 128+GB di RAM unificata e un’efficienza AI di 1 PFLOPS. Un dispositivo interessante per eseguire LLM.