Q: Le paramètre OLLAMA_NUM_THREADS limite-t-il l’utilisation du CPU dans Ollama ?

OLLAMA_NUM_THREADS est une variable d’environnement destinée à limiter le nombre de threads. Dans certains cas, elle ne peut pas être respectée et Ollama peut tout de même utiliser de nombreux cœurs. L’option num_thread par demande dans l’API a souvent un effet plus clair.

Question 1

Comment Ollama utilise-t-il les cœurs du processeur lorsque le modèle ne tient pas dans la VRAM ?

Accepted Answer

Ollama décharge certaines couches vers le CPU. Vous pouvez définir le nombre de threads utilisés via l&rsquo;option num_thread de l&rsquo;API (par exemple, dans la requête generate). L&rsquo;utilisation d&rsquo;un plus grand nombre de threads (par exemple, 16) peut améliorer le débit de tokens par seconde de 10 à 14 % par rapport à un faible nombre de threads, mais un nombre trop élevé peut nuire aux performances.

Question 2

Le paramètre OLLAMA_NUM_THREADS limite-t-il l&rsquo;utilisation du CPU dans Ollama ?

Accepted Answer

OLLAMA_NUM_THREADS est une variable d&rsquo;environnement destinée à limiter le nombre de threads. Dans certains cas, elle ne peut pas être respectée et Ollama peut tout de même utiliser de nombreux cœurs. L&rsquo;option num_thread par demande dans l&rsquo;API a souvent un effet plus clair.

Question 3

Quelle est la meilleure valeur de num_thread pour le déchargement CPU d&rsquo;Ollama ?

Accepted Answer

Cela dépend de votre processeur. Dans des tests avec les cœurs de performance et d&rsquo;efficacité d&rsquo;Intel, des valeurs comme 12 à 16 threads ont souvent donné les meilleurs résultats en termes de tokens par seconde pour les couches déchargées. L&rsquo;utilisation de tous les cœurs physiques (par exemple, 20) a parfois réduit les performances. Il est recommandé d&rsquo;ajuster les paramètres en fonction de chaque machine.

Question 4

Pourquoi mon inférence Ollama est-elle lente lorsque le modèle utilise le CPU ?

Accepted Answer

Le déchargement du CPU est beaucoup plus lent que le traitement complet par le GPU. Même avec plus de threads, l&rsquo;écart reste important (par exemple, des chiffres à un seul chiffre par rapport à des dizaines de tokens par seconde). Pour des inférences plus rapides, utilisez un modèle plus petit ou quantifié qui tient dans la VRAM, ou un GPU avec plus de VRAM.

Question 5

Où puis-je trouver plus d&rsquo;informations sur les performances et les benchmarks des LLM ?

Accepted Answer

Notre centre de performance des LLM aborde le débit par rapport à la latence, les limites de VRAM, les requêtes parallèles et les benchmarks sur différents runtimes et matériels.

Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces

Paramètre de configuration OLLAMA_NUM_THREADS

Option de appel num_thread

Conclusion

Liens utiles