Comparaison des stratégies de découpage dans le RAG
Chunking est le hyperparamètre le plus sous-estimé dans le génération augmentée par recherche (RAG) :
il détermine silencieusement ce que votre LLM “voit”,
combien coûte l’ingestion,
et combien de la fenêtre de contexte de l’LLM vous brûlez par réponse.
Contrôlez les données et les modèles avec des LLM hébergés localement
L’hébergement local des LLM permet de garder les données, les modèles et l’inférence sous votre contrôle : une approche pratique pour atteindre la souveraineté en IA pour les équipes, les entreprises et les nations.
Test de vitesse du LLM sur RTX 4080 avec 16 Go de VRAM
Exécuter des modèles de langage volumineux localement vous offre la confidentialité, la capacité hors ligne et un coût API nul.
Ce benchmark révèle exactement ce à quoi on peut s’attendre à partir de 14 modèles populaires
LLMs sur Ollama sur un RTX 4080.
Vérification des prix des GPU et RAM en janvier 2025
Aujourd’hui, nous examinons les GPU grand public haut de gamme et les modules de RAM. Plus précisément, j’étudie les prix des RTX-5080 et RTX-5090, ainsi que les modules de 32GB (2x16GB) DDR5 6000.
Choisissez le terminal adapté à votre flux de travail Linux
L’un des outils les plus essentiels pour les utilisateurs de Linux est l’émulateur de terminal (https://www.glukhov.org/fr/post/2026/01/terminal-emulators-for-linux-comparison/ “Linux l’émulateur de terminal”).
Test de Cognee avec des LLM locaux - résultats réels
Cognee est un framework Python permettant de construire des graphes de connaissances à partir de documents en utilisant des LLM.
Mais fonctionne-t-il avec des modèles auto-hébergés ?
Comment j'ai résolu les problèmes de réseau sous Ubuntu
Après avoir installé automatiquement un nouveau noyau, Ubuntu 24.04 a perdu la connexion réseau Ethernet. Ce problème frustrant s’est produit une deuxième fois pour moi, donc je documente la solution ici pour aider les autres confrontés au même problème.
Les prix de la mémoire RAM augmentent de 163 à 619 % en raison de la demande accrue d'IA qui met la pression sur l'offre.
Le marché de la mémoire connaît une volatilité de prix sans précédent à la fin de 2025, avec une hausse dramatique des prix de la RAM sur tous les segments : augmentation des prix de la RAM.
Prix des GPU pour consommateurs compatibles avec l'IA - RTX 5080 et RTX 5090
Commençons par comparer les prix des cartes graphiques de haut de gamme destinées aux consommateurs, qui sont particulièrement adaptées aux LLM et plus généralement à l’IA.
Plus précisément, je regarde
prix des RTX-5080 et RTX-5090.
Déployez l'intelligence artificielle d'entreprise sur des matériels abordables avec des modèles open source
La démocratisation de l’IA est ici.
Avec des LLM open source comme Llama 3, Mixtral et Qwen qui rivalisent désormais avec les modèles propriétaires, les équipes peuvent construire une infrastructure puissante d’IA à l’aide du matériel grand public - réduisant les coûts tout en maintenant un contrôle complet sur la confidentialité des données et le déploiement.
Benchmarks GPT-OSS 120b sur trois plateformes d'IA
J’ai découvert des tests de performance intéressants sur l’exécution du modèle GPT-OSS 120b avec Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio, et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’exécuter dans les 16 Go de VRAM d’un RTX 4080 (ou sur le plus récent RTX 5080).
Référence rapide des commandes Docker Model Runner
Docker Model Runner (DMR) est la solution officielle de Docker pour exécuter des modèles d’IA localement, introduite en avril 2025. Cette fiche pratique fournit un référentiel rapide pour toutes les commandes essentielles, les configurations et les bonnes pratiques.