Cheatsheet

Charger tous les modèles du routeur llama.cpp sans redémarrage

Mode routeur de llama.cpp est l’un des changements les plus utiles apportés à llama-server depuis des années. Il offre enfin aux opérateurs de LLM locaux une expérience de gestion des modèles proche de celle attendue d’Ollama, tout en conservant les performances brutes et le contrôle de bas niveau qui rendent llama.cpp intéressant à utiliser en premier lieu.

Référence des paramètres d'inférence des LLMs agissants pour Qwen et Gemma

Cette page est une référence pratique pour l’optimisation de l’inférence des LLMs agents (température, top_p, top_k, pénalités, et comment ils interagissent dans les flux de travail multi-étapes et intensifs en outils).

Fiche de référence pour l'interface Hermes Agent CLI — commandes, drapeaux et raccourcis slash

L’agent Hermes de Nous Research est un assistant agnostique du modèle, utilisant des outils, que vous pouvez exécuter localement ou sur un VPS.

Guide pratique NemoClaw pour des opérations OpenClaw sécurisées en 2026

La plupart des stacks d’agents IA considèrent encore la sécurité comme une correction à appliquer après la démonstration. NemoClaw part du principe inverse et fait de l’isolation, des politiques et du routage des valeurs par défaut dès le premier jour.

Mode routeur de Llama-Server : basculement dynamique de modèles sans redémarrage

Pendant longtemps, llama.cpp présentait une limitation criante : vous ne pouviez servir qu’un seul modèle par processus, et changer de modèle impliquait un redémarrage.

Mettre les scripts en pause avec « Appuyez sur une touche » dans Bash, CMD, PowerShell et macOS.

Les fichiers par lots et les scripts shell ont souvent besoin d’une courte pause afin qu’une fenêtre lancée par un double-clic ou un journal d’installation reste visible. Windows CMD dispose d’une commande dédiée pause. Les shells Unix utilisent read.

Démarrage rapide de SGLang : Installation, configuration et déploiement de LLM via l’API OpenAI

SGLang est un framework de service haute performance pour les grands modèles de langage et les modèles multimodaux, conçu pour fournir une inférence à faible latence et à haut débit sur tout, d’une seule GPU à des clusters distribués.

Guide de prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles OpenAI

Bientôt, vous jonglerez avec vLLM, llama.cpp et plus encore — chaque pile sur son propre port. Tout ce qui se trouve en aval souhaite toujours une URL de base /v1; sinon, vous continuez à changer de ports, de profils et de scripts ponctuels. llama-swap est le proxy /v1 avant ces piles.

Début rapide de l'assistant de codage OpenHands : installation, options de ligne de commande et exemples

OpenHands est une plateforme open-source et agnostique des modèles pour les agents de développement logiciel pilotés par l’IA. Il permet à un agent de se comporter davantage comme un partenaire de codage que comme un simple outil de complétion automatique.

LocalAI QuickStart : Exécuter des LLM compatibles OpenAI localement

LocalAI est un serveur d’inférence auto-hébergé, conçu en priorité pour une utilisation locale, qui se comporte comme une API OpenAI de remplacement pour exécuter des charges de travail d’IA sur votre propre matériel (ordinateur portable, station de travail ou serveur sur site).

Introduction à llama.cpp avec CLI et Serveur

Je reviens sans cesse à llama.cpp pour l’inférence locale : il vous offre un contrôle que Ollama et d’autres solutions abstraissent, et il fonctionne simplement. Il est facile d’exécuter des modèles GGUF de manière interactive avec llama-cli ou d’exposer une API HTTP compatible OpenAI avec llama-server.

Début rapide avec OpenCode : installer, configurer et utiliser l'agent de codage IA en ligne de commande

OpenCode est un agent de codage IA open source que vous pouvez exécuter dans le terminal (TUI + CLI) avec des interfaces bureau et IDE optionnelles. Voici le Guide de démarrage rapide d’OpenCode : installation, vérification, connexion d’un modèle/fournisseur et exécution de workflows réels (CLI + API).

L'automatisation du navigateur en Go : Selenium, chromedp, Playwright, ZenRows

Le choix de la bonne stack d’automatisation du navigateur et webscraping en Go affecte la vitesse, la maintenance et l’endroit où votre code s’exécute.

Comment configurer les lanceurs de bureau sous Ubuntu 24 avec des icônes standard

Les lanceurs de bureau sous Ubuntu 24 (et la plupart des bureaux Linux) sont définis par des fichiers .desktop : de petits fichiers de configuration basés sur du texte qui décrivent une application ou un lien.

L'automatisation du navigateur en Python : Playwright, Selenium et plus encore

Le choix de la bonne pile d’automatisation de navigateur en Python affecte la vitesse, la stabilité et l’entretien. Ce survol compare Playwright vs Selenium vs Puppeteer vs LambdaTest vs ZenRows vs Gauge - avec un accent particulier sur Python, tout en notant où Node.js ou d’autres langages s’intègrent.

Interface utilisateur terminal : BubbleTea (Go) vs Ratatui (Rust)

Deux options solides pour construire des interfaces utilisateur en terminal aujourd’hui sont BubbleTea (Go) et Ratatui (Rust). L’une vous offre un cadre opinionné, du style Elm ; l’autre, une bibliothèque flexible en mode immédiat.