Comment Ollama gère les requêtes parallèles
Configurer ollama pour l'exécution de requêtes en parallèle.
Lorsque le serveur Ollama reçoit deux demandes en même temps, son comportement dépend de sa configuration et des ressources système disponibles.
Configurer ollama pour l'exécution de requêtes en parallèle.
Lorsque le serveur Ollama reçoit deux demandes en même temps, son comportement dépend de sa configuration et des ressources système disponibles.
Qu'est-ce que ce codage assisté par l'IA à la mode ?
Vibe coding est une approche de programmation pilotée par l’IA où les développeurs décrivent les fonctionnalités souhaitées en langage naturel, permettant aux outils d’IA de générer automatiquement du code.
Comparaison de deux modèles deepseek-r1 avec deux modèles de base
DeepSeek’s première génération de modèles de raisonnement avec des performances comparables à celles d’OpenAI-o1,
y compris six modèles denses distillés à partir de DeepSeek-R1 basés sur Llama et Qwen.
J'ai compilé cette liste de commandes Ollama il y a un certain temps...
Voici la liste et les exemples des commandes Ollama les plus utiles (fiche de commandes Ollama) que j’ai compilées il y a un certain temps. J’espère qu’elles vous seront également utiles.
Prochaine série de tests de LLM
Il y a peu de temps a été publié. Commençons par un point de situation et testons comment Mistral Small se compare aux autres LLM.
Un code Python pour le reranking de RAG
Un nouveau modèle d'IA incroyable capable de générer une image à partir de texte
Récemment, Black Forest Labs a publié un ensemble de
modèles d’IA texte à image.
Ces modèles sont dit avoir une qualité de sortie bien plus élevée.
Essayons-les
Comparaison de deux moteurs de recherche d'IA auto-hébergés
La bonne nourriture est aussi un plaisir pour les yeux. Mais dans cet article, nous allons comparer deux systèmes de recherche basés sur l’IA, Farfalle et Perplexica.
Exécuter localement un service du style Copilot ? Facile !
C’est très excitant !
Au lieu d’appeler Copilot ou Perplexity.ai et de tout raconter au monde,
vous pouvez maintenant héberger un service similaire sur votre propre ordinateur ou laptop !
Pas tant d'options à choisir, mais tout de même...
Quand j’ai commencé à expérimenter avec les LLM, les interfaces utilisateur pour eux étaient en développement actif, et maintenant certaines d’entre elles sont vraiment excellentes.
Test de détection des fautes de raisonnement
Récemment, nous avons vu plusieurs nouveaux LLM sortir. Des temps excitants. Testons-les et voyons comment ils se débrouillent lors de la détection des fautes logiques.
Exige quelques expérimentations mais
Il existe toutefois quelques approches courantes pour rédiger des prompts efficaces afin que le modèle de langage ne se confonde pas en tentant de comprendre ce que vous souhaitez.
8 versions de llama3 (Meta+) et 5 versions de phi3 (Microsoft) de modèles LLM
Testing comment sur les modèles avec un nombre différent de paramètres et la quantification.
Les fichiers de modèles LLM d'Ollama prennent beaucoup de place.
Après avoir installé ollama, il est préférable de reconfigurer ollama pour qu’il les stocke directement dans le nouveau lieu. Ainsi, après avoir tiré un nouveau modèle, il ne sera pas téléchargé vers l’ancien emplacement.
Testons la vitesse des LLM sur GPU par rapport au CPU
Comparaison de la vitesse de prédiction de plusieurs versions de LLM (modèles de langage grand public) : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.
Testons la qualité de détection des fautes logiques de différents LLMs
Ici, je compare plusieurs versions de LLM : Llama3 (Meta), Phi3 (Microsoft), Gemma (Google), Mistral Nemo (Mistral AI) et Qwen (Alibaba).