LLM - Page 4 - Rost Glukhov | Site personnel et blog technique

Contrainte des LLM avec une sortie structurée : Ollama, Qwen3 & Python ou Go

Les grands modèles de langage (LLMs) sont puissants, mais en production, nous souhaitons rarement des paragraphes libres. Au contraire, nous voulons des données prévisibles : des attributs, des faits ou des objets structurés que vous pouvez alimenter dans une application. C’est la sortie structurée des LLM.

Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1

Ici, je compare la quantité de VRAM allouée par la nouvelle version d’Ollama au modèle par rapport à la version précédente d’Ollama. La nouvelle version est pire.

L'Enshittification d'Ollama - Les premiers signes

Ollama est rapidement devenu l’un des outils les plus populaires pour exécuter des LLM localement. Son interface CLI simple et sa gestion des modèles optimisée l’ont rendu l’option de prédilection pour les développeurs souhaitant travailler avec des modèles d’IA en dehors du cloud.

Interfaces de chat pour les instances locales d'Ollama

Localement hébergé, Ollama permet d’exécuter des modèles de langage sur votre propre machine, mais son utilisation via la ligne de commande n’est pas très conviviale.
Voici plusieurs projets open source qui proposent des interfaces du style ChatGPT qui se connectent à un Ollama local.

NVIDIA DGX Spark - nouveau petit superordinateur AI

Nvidia est sur le point de lancer le NVIDIA DGX Spark – un petit superordinateur d’IA basé sur l’architecture Blackwell, doté d’une mémoire unifiée de 128+Go et d’une performance d’IA de 1 PFLOPS. Un appareil intéressant pour exécuter les LLM.

Protocole de contexte du modèle (MCP), et notes sur la mise en œuvre d'un serveur MCP en Go

Ici, nous avons une description du Model Context Protocol (MCP), des notes brèves sur la manière d’implémenter un serveur MCP en Go, comprenant la structure des messages et les spécifications du protocole.

Reranking des documents avec Ollama et le modèle Qwen3 Reranker - en Go

Comme Ollama standard ne dispose pas d’API de rerank directe, vous devrez implémenter le reranking avec Qwen3 Reranker en GO en générant des embeddings pour les paires de requêtes et de documents et en les notant.

Comparaison de la qualité de la traduction des pages Hugo - LLMs sur Ollama

Dans ce test, je suis en train de comparer comment différents LLMs hébergés sur Ollama traduisent une page Hugo en anglais vers l’allemand.

Reranking des textes avec Ollama et Qwen3 Embedding LLM - en Go

Ce petit exemple de code Go pour le reranking appelle Ollama pour générer des embeddings pour la requête et pour chaque document candidat, puis trie par ordre décroissant de similarité cosinus.

Modèles d'embedding et de réorganisation Qwen3 sur Ollama : une performance d'avant-garde

Les modèles Qwen3 Embedding and Reranker sont les dernières sorties de la famille Qwen, spécifiquement conçus pour des tâches avancées d’embedding de texte, de récupération et de réordonnancement.

Performance des LLM et voies PCIe : Points clés à considérer

Comment les canaux PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.

Convertir du contenu HTML en Markdown à l'aide d'un LLM et d'Ollama

Dans la bibliothèque de modèles Ollama, il existe des modèles capables de convertir du contenu HTML en Markdown, ce qui est utile pour les tâches de conversion de contenu. Ce guide fait partie de notre Outils de Documentation en 2026 : Markdown, LaTeX, PDF et Flux de Travail d’Impression hub.

Recherche vs Deepsearch vs Recherche approfondie

Recherche est idéale pour une récupération rapide et directe d’informations à l’aide de mots-clés.
Recherche approfondie excelle dans la compréhension du contexte et de l’intention, livrant des résultats plus pertinents et complets pour des requêtes complexes.

Comparaison des assistants de codage par IA

Voici une liste d’outils d’assistance au codage basés sur l’intelligence artificielle (IA) et leurs avantages.

Fournisseurs de modèles de langage de cloud

L’utilisation des LLM n’est pas très coûteuse, il pourrait ne pas être nécessaire d’acheter un nouveau GPU impressionnant. Voici une liste si fournisseurs de LLM en nuage avec les LLM qu’ils hébergent.

Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces

J’ai une théorie à tester - si l’utilisation de tous les cœurs d’un processeur Intel augmenterait la vitesse des LLM ? Cela me tracasse que le nouveau modèle gemma3 27 bit (gemma3:27b, 17 Go sur ollama) ne tienne pas dans les 16 Go de VRAM de mon GPU, et qu’il s’exécute partiellement sur le CPU.