Self-Hosting

Podman Quadlet vs Docker Compose pour les services Linux

Docker Compose et Podman Quadlet résolvent des problèmes qui se chevauchent, mais ils proviennent de philosophies de conception différentes. Le choix entre les deux dépend de votre façon de penser : en piles d’applications ou en services Linux.

Exécuter Docker Compose en tant que service Linux avec systemd

Docker Compose sur un serveur Linux doit démarrer au boot, s’arrêter proprement à l’extinction et survivre aux redémarrages sans intervention manuelle.

Installer Docker sur Ubuntu : APT, Snap, Rootless — Guide complet 2026

L’installation de Docker sur Ubuntu devrait être simple, mais en pratique, plusieurs options « en forme de Docker » rivalisent pour le même nom de commande, chacune avec sa propre gestion des paquets, son comportement de mise à jour et ses implications en matière de sécurité.

Dépannage d'APT sous Ubuntu : Corriger les paquets cassés, les retenues et les erreurs GPG

Les échecs d’APT sont courants sur les machines Ubuntu de longue durée, et ils apparaissent généralement après une mise à niveau de version, un changement de dépôt tiers, la suppression d’un PPA, l’installation manuelle d’un fichier .deb ou une installation de paquets interrompue.

Charger tous les modèles du routeur llama.cpp sans redémarrage

Mode routeur de llama.cpp est l’un des changements les plus utiles apportés à llama-server depuis des années. Il offre enfin aux opérateurs de LLM locaux une expérience de gestion des modèles proche de celle attendue d’Ollama, tout en conservant les performances brutes et le contrôle de bas niveau qui rendent llama.cpp intéressant à utiliser en premier lieu.

Référence des paramètres d'inférence des LLMs agissants pour Qwen et Gemma

Cette page est une référence pratique pour l’optimisation de l’inférence des LLMs agents (température, top_p, top_k, pénalités, et comment ils interagissent dans les flux de travail multi-étapes et intensifs en outils).

Contrôle vocal d'Hermes depuis votre téléphone

Vous discutez déjà avec l’agent Hermes depuis votre téléphone par messages texte. Vous souhaitez désormais lui parler directement et recevoir des réponses vocales. C’est généralement la bonne approche, surtout si vous utilisez déjà Hermes comme assistant auto-hébergé persistant. Taper de longs prompts sur un petit écran est lent et sujet aux erreurs.

Guide pratique NemoClaw pour des opérations OpenClaw sécurisées en 2026

La plupart des stacks d’agents IA considèrent encore la sécurité comme une correction à appliquer après la démonstration. NemoClaw part du principe inverse et fait de l’isolation, des politiques et du routage des valeurs par défaut dès le premier jour.

La gestion des connaissances en 2026 : outils PKM, wikis auto-hébergés et systèmes numériques

La gestion des connaissances personnelles s’étend sur Obsidian, Logseq, DokuWiki, Zettelkasten et PARA — le bon choix dépend de savoir si vous souhaitez un graphe de notes local, un wiki auto-hébergé ou un flux de travail basé sur un outliner.

Claude, OpenClaw et la fin du prix unique pour les agents

La faille discrète qui a alimenté une vague d’expérimentation d’agents est désormais close.

Démarrage rapide de Vane (Perplexica 2.0) avec Ollama et llama.cpp

Vane est l’une des entrées les plus pragmatiques dans le domaine de la « recherche IA avec citations » : un moteur de réponse auto-hébergé qui combine la récupération web en direct avec des LLM locaux ou cloud, tout en gardant toute la pile sous votre contrôle.

TGI - Text Generation Inference - Installation, Configuration, Dépannage

Text Generation Inference (TGI) possède une énergie très particulière. Ce n’est pas le nouveau venu de la rue de l’inférence, mais c’est celui qui a déjà appris comment la production peut se briser -

Benchmarks LLM avec 16 Go de VRAM et llama.cpp (vitesse et contexte)

Voici une comparaison de la vitesse de plusieurs LLMs (modèles de langage grand) fonctionnant sur un GPU avec 16 Go de VRAM, et le choix du meilleur pour l’auto-hébergement.

Prix et disponibilité de la RTX 5090 en Australie : la réalité de mars 2026

L’Australie dispose de stock pour la RTX 5090. À peine. Et si vous en trouvez une, vous paierez une prime qui semble déconnectée de la réalité.

Accès distant à Ollama via Tailscale ou WireGuard, sans ports publics.

Ollama est à son meilleur lorsque l’on le traite comme un démon local : la CLI et vos applications communiquent avec une API HTTP en boucle locale (loopback), et le reste du réseau ignore son existence.

Ollama dans Docker Compose avec GPU et stockage persistant des modèles

Ollama fonctionne parfaitement sur du matériel nu. Cela devient encore plus intéressant lorsque vous le traitez comme un service : une extrémité stable, des versions figées, un stockage persistant et une GPU qui est soit disponible, soit non.