Quelles sont les commandes les plus populaires dans Ollama ?

Les commandes les plus populaires d’Ollama sont ollama list, ollama pull, ollama rm et ollama run.

Où puis-je comparer Ollama avec d’autres options d’hébergement de modèles LLM ?

Notre aperçu du déploiement d’LLM compare Ollama à vLLM, Docker Model Runner, LocalAI et aux fournisseurs de cloud, y compris les compromis en termes de coût et d’infrastructure.

Comment puis-je voir où Ollama se situe par rapport aux options locales et en cloud pour les LLM ?

Le guide d’hébergement des LLM compare les outils locaux tels qu’Ollama et vLLM aux fournisseurs de cloud et explique quand choisir chacun.

Comment libérer la mémoire GPU après avoir utilisé un modèle Ollama ?

Utilisez ollama stop suivi du nom du modèle pour arrêter un modèle en cours d’exécution, ou envoyez une requête à l’API Ollama avec keep_alive défini à 0 pour décharger immédiatement le modèle de la VRAM.

Comment installer Ollama sur Linux ?

Visitez ollama.com pour télécharger l’installeur, ou exécutez curl https://ollama.ai/install.sh | sh dans le terminal et suivez les instructions.

Quelles sont les exigences système pour exécuter Ollama ?

Vous avez besoin d’un Mac ou d’un Linux, au moins 8 Go de RAM (16 Go recommandés), environ 10 Go d’espace de stockage libre pour les modèles, et un processeur relativement récent des dernières années.

Comment puis-je voir quels modèles Ollama sont actuellement chargés ou en cours d’exécution ?

Exécutez ollama ps pour afficher la liste des modèles chargés en ce moment, leur taille, s’ils utilisent le GPU ou le CPU, ainsi que la durée pendant laquelle ils restent en mémoire.

Comment exécuter un modèle Ollama avec un seul prompt sans ouvrir la session interactive ?

Redirigez votre prompt vers ollama run, par exemple printf “Votre question ici\n” | ollama run modelname exécute le modèle une fois et sort.

Comment puis-je augmenter ou limiter les requêtes parallèles dans Ollama ?

Définissez la variable d’environnement OLLAMA_NUM_PARALLEL avant de démarrer le serveur (par exemple : OLLAMA_NUM_PARALLEL=2 ollama serve) pour contrôler le nombre de requêtes traitées en parallèle par Ollama.

Comment personnaliser un modèle Ollama ou définir un prompt système ?

Utilisez /set system dans l’interface interactive REPL, puis /save pour créer un nouveau modèle, ou créez un fichier Modelfile avec les lignes FROM et SYSTEM, puis exécutez ollama create pour construire un modèle personnalisé.

Feuille de rappel de la CLI Ollama : ls, serve, run, ps + commandes (mise à jour 2026)

Liste mise à jour des commandes Ollama - ls, ps, run, serve, etc.

Sommaire

Ce Ollama CLI cheatsheet se concentre sur les commandes que vous utilisez tous les jours (ollama ls, ollama serve, ollama run, ollama ps, gestion des modèles et flux de travail courants), avec des exemples que vous pouvez copier/coller.

Il inclut également une courte section « réglages de performance » pour vous aider à découvrir (et ensuite à explorer en détail) OLLAMA_NUM_PARALLEL et les paramètres associés.

ollama cheatsheet

Ce Ollama cheatsheet se concentre sur les commandes CLI, la gestion des modèles et la personnalisation, Mais nous avons également ici quelques appels curl.

Pour avoir une vue d’ensemble de la place qu’occupe Ollama parmi les options locales, auto-hébergées et cloud — y compris vLLM, Docker Model Runner, LocalAI et les fournisseurs de cloud — voir LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Si vous comparez différentes solutions d’hébergement local des LLM, consultez notre comparaison approfondie d’Ollama, vLLM, LocalAI, Jan, LM Studio et plus. Pour ceux qui cherchent des alternatives aux interfaces en ligne de commande, Docker Model Runner propose une approche différente du déploiement des LLM.

Installation d’Ollama (téléchargement et installation CLI)

Option 1 : Télécharger depuis le site web
- Visitez ollama.com et téléchargez l’installeur pour votre système d’exploitation (Mac, Linux ou Windows).
Option 2 : Installer via la ligne de commande
- Pour les utilisateurs Mac et Linux, utilisez la commande :

curl -fsSL https://ollama.com/install.sh | sh

Suivez les instructions à l’écran et entrez votre mot de passe si nécessaire.

Exigences système d’Ollama (RAM, stockage, CPU)

Système d’exploitation : Mac, Linux ou Windows
Mémoire (RAM) : 8 Go minimum, 16 Go ou plus recommandé
Stockage : Au moins ~10 Go d’espace libre (les fichiers de modèle peuvent être vraiment volumineux, voir ici plus Déplacer les modèles Ollama vers un autre disque)
Processeur : Un processeur relativement moderne (des 5 dernières années). Si vous êtes curieux de savoir comment Ollama utilise différentes architectures de processeur, consultez notre analyse de comment Ollama utilise les performances et les cœurs efficaces des processeurs Intel.

Pour des charges de travail IA sérieuses, vous pourriez vouloir comparer les options matérielles. Nous avons benchmarké NVIDIA DGX Spark vs Mac Studio vs RTX-4080 performance avec Ollama, et si vous envisagez d’investir dans un matériel haut de gamme, notre analyse des prix et des capacités de DGX Spark fournit une analyse détaillée des coûts.

Commandes CLI de base d’Ollama

Commande	Description
`ollama serve`	Démarrer le serveur Ollama (port par défaut 11434).
`ollama run <model>`	Exécuter le modèle spécifié dans un REPL interactif.
`ollama pull <model>`	Télécharger le modèle spécifié sur votre système.
`ollama push <model>`	Uploader un modèle sur le registre Ollama.
`ollama list`	Liste tous les modèles téléchargés. Même que `ollama ls`.
`ollama ps`	Affiche les modèles actuellement en cours d’exécution (chargés).
`ollama stop <model>`	Arrête (désactive) un modèle en cours d’exécution.
`ollama rm <model>`	Supprime un modèle de votre système.
`ollama cp <source> <dest>`	Copie un modèle sous un nouveau nom localement.
`ollama show <model>`	Affiche les détails d’un modèle (architecture, paramètres, modèle, etc.).
`ollama create <model>`	Crée un nouveau modèle à partir d’un fichier Modelfile.
`ollama launch [integration]`	Déploiement sans configuration de assistants d’écriture de code IA (Claude Code, Codex, Droid, OpenCode).
`ollama signin`	Authentifiez-vous avec le registre Ollama (active les modèles privés et les modèles cloud).
`ollama signout`	Déconnectez-vous du registre Ollama.
`ollama help`	Fournit de l’aide sur toute commande.

Liens rapides : Commande ollama serve · Commande ollama launch (intégrations d’assistant de code IA) · Commande ollama run · Flags ollama run · Commande ollama ps · Commande ollama show · Ollama signin et signout (authentification du registre) · Commandes CLI de base d’Ollama · Réglages de performance (OLLAMA_NUM_PARALLEL) · Analyse approfondie des requêtes parallèles

CLI Ollama (à quoi sert)

Ollama CLI est l’interface en ligne de commande pour gérer les modèles et les exécuter/les servir localement. La plupart des workflows se réduisent à :

Démarrer le serveur : ollama serve
Exécuter un modèle : ollama run <model>
Voir ce qui est chargé/à l’exécution : ollama ps
Gérer les modèles : ollama pull, ollama list, ollama rm

Gestion des modèles Ollama : commandes pull et list

Lister les modèles :

ollama list

C’est le même que :

ollama ls

Cette commande liste tous les modèles téléchargés sur votre système, avec leurs tailles de fichiers sur votre HDD/SSD, comme

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 semaines plus tôt     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 semaines plus tôt     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 semaines plus tôt     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 semaines plus tôt     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 semaines plus tôt     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 semaines plus tôt     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 semaines plus tôt     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 semaines plus tôt     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 semaines plus tôt

Télécharger un modèle : ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Cette commande télécharge le modèle spécifié (par exemple, Gemma 2B, ou mistral-nemo:12b-instruct-2407-q6_K) sur votre système. Les fichiers de modèle peuvent être assez volumineux, donc surveillez l’espace utilisé par les modèles sur le disque dur, ou SSD. Vous pourriez même vouloir déplacer tous les modèles Ollama de votre répertoire home vers un autre disque plus grand et meilleur

Uploader un modèle : ollama push

ollama push my-custom-model

Uploader un modèle local vers le registre Ollama afin que d’autres puissent le télécharger. Vous devez être connecté en premier (ollama signin) et le nom du modèle doit être préfixé par votre nom d’utilisateur Ollama, par exemple myuser/my-model. Utilisez --insecure si vous poussez vers un registre privé via HTTP :

ollama push myuser/my-model --insecure

Copier un modèle : ollama cp

ollama cp llama3.2 my-llama3-variant

Crée une copie locale d’un modèle sous un nouveau nom sans redescendre tout. C’est pratique avant d’éditer un fichier Modelfile — copiez d’abord, personnalisez la copie, et gardez l’original intact :

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Commande ollama show

ollama show affiche des informations sur un modèle téléchargé.

ollama show qwen3:14b

Par défaut, elle affiche la fiche du modèle (architecture, longueur de contexte, longueur d’embedding, quantification, etc.). Il existe trois drapeaux utiles :

Drapeau	Ce qu’il affiche
`--modelfile`	Le fichier Modelfile complet utilisé pour créer le modèle (LIGNES FROM, SYSTEM, TEMPLATE, PARAMETER)
`--parameters`	Seulement la section des paramètres (par exemple `num_ctx`, `temperature`, `stop` tokens)
`--verbose`	Métadonnées étendues incluant les formes de tenseurs et les comptages de couches

# Voir exactement quel prompt système et modèle ont été utilisés pour construire un modèle
ollama show deepseek-r1:8b --modelfile

# Vérifier la taille de la fenêtre de contexte et d'autres paramètres d'inférence
ollama show qwen3:14b --parameters

# Détail complet au niveau des tenseurs (utile lors du débogage de la quantification)
ollama show llama3.2 --verbose

La sortie --modelfile est particulièrement utile avant de personnaliser un modèle : vous pouvez copier le fichier Modelfile de base et éditer à partir de là plutôt que d’écrire un nouveau à partir de zéro.

Commande ollama serve

ollama serve démarre le serveur Ollama local (port HTTP par défaut 11434).

ollama serve

“Commande ollama serve” (exemple compatible avec systemd) :

# définir les variables d'environnement, puis démarrer le serveur
# rendre ollama disponible sur l'adresse IP de l'hôte
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Commande ollama run

Exécuter un modèle :

ollama run gpt-oss:20b

Cette commande démarre le modèle spécifié et ouvre une session interactive REPL pour l’interaction. Vous voulez comprendre comment Ollama gère les requêtes multiples en parallèle ? Découvrez plus sur comment Ollama gère les requêtes parallèles dans notre analyse détaillée.

ollama run exécute un modèle en session interactive, donc dans le cas de gpt-oss:120b vous verriez quelque chose comme

$ ollama run gpt-oss:120b
>>> Envoyez un message (/? pour l'aide)

vous pouvez taper vos questions ou commandes et le modèle répondra.

>>> qui êtes-vous ?
En pensée...
La question de l'utilisateur est "qui êtes-vous ?" Question simple. Il faut répondre comme ChatGPT, un modèle de langage IA, entraîné par OpenAI, 
etc. Fournir une introduction brève. Probablement demander si on peut aider.
...terminé de penser.

Je suis ChatGPT, un modèle de langage IA créé par OpenAI. J'ai été entraîné sur une vaste gamme de textes afin de pouvoir aider 
répondre aux questions, brainstormer des idées, expliquer des concepts, rédiger des écrits, résoudre des problèmes et bien plus encore. Pensez 
à moi comme à un assistant virtuel polyvalent — ici pour fournir des informations, du soutien et des conversations quand vous en avez besoin. Comment puis-je vous aider aujourd'hui ?

>>> Envoyez un message (/? pour l'aide)

Pour quitter la session interactive ollama, appuyez sur Ctrl+D, ou vous pouvez taper /bye, le même résultat :

>>> /bye
$

Exemples de commandes ollama run

Pour exécuter un modèle et poser une seule question en mode non interactif :

printf "Donnez-moi 10 one-liners bash pour l'analyse des journaux.\n" | ollama run llama3.2

Si vous souhaitez voir une réponse détaillée du LLM en session ollama - exécutez le modèle avec le paramètre --verbose ou -v :

$ ollama run gpt-oss:20b --verbose
>>> qui êtes-vous ?
En pensée...
Nous devons répondre à une question simple : "qui êtes-vous ?" L'utilisateur pose la question "qui êtes-vous ?" Nous pouvons répondre que nous 
sommes ChatGPT, un grand modèle de langage entraîné par OpenAI. Nous pouvons également mentionner les capacités. L'utilisateur s'attend probablement à une 
introduction brève. Nous la garderons amicale.
...terminé de penser.

Je suis ChatGPT, un grand modèle de langage créé par OpenAI. Je suis ici pour aider à répondre aux questions, à offrir des explications, 
à brainstormer des idées, et à discuter de sujets variés — de la science et de l'histoire à l'écriture créative et aux conseils du quotidien. N'hésitez pas à me dire ce que vous aimeriez aborder !

total duration:       1.118585707s
load duration:        106.690543ms
prompt eval count:    71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate:     2327.30 tokens/s
eval count:           132 token(s)
eval duration:        945.801569ms
eval rate:            139.56 tokens/s
>>> /bye
$

Oui, c’est bien, c’est 139 tokens par seconde. Le gpt-oss:20b est très rapide. Si vous, comme moi, avez un GPU avec 16 Go de VRAM - consultez les détails de la comparaison des vitesses des LLM dans Meilleurs LLM pour Ollama sur GPU avec 16 Go de VRAM.

Conseil : Si vous souhaitez que le modèle soit disponible via HTTP pour plusieurs applications, démarrez le serveur avec ollama serve et utilisez le client API au lieu de longues sessions interactives.

Drapeaux de la commande ollama run (référence complète)

Drapeau	Description
`--verbose` / `-v`	Afficher les statistiques de timing (tokens/s, temps de chargement, etc.) après chaque réponse
`-p, --parameters`	Passer les paramètres du modèle en ligne sans un fichier Modelfile (voir ci-dessous)
`--format string`	Forcer un format de sortie spécifique, par exemple `json`
`--nowordwrap`	Désactiver le retour à la ligne automatique — utile lors de la redirection de la sortie vers des scripts
`--insecure`	Permettre de se connecter à un registre via HTTP (pour les registres privés/auto-hébergés)

Surcharger les paramètres du modèle sans un fichier Modelfile (-p / –parameters)

Le drapeau -p vous permet de changer les paramètres d’inférence en temps réel sans créer un fichier Modelfile. Vous pouvez empiler plusieurs drapeaux -p :

# Augmenter la fenêtre de contexte et diminuer la température
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Exécuter une tâche de codage avec une sortie déterministe
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Paramètres courants que vous pouvez définir ainsi :

Paramètre	Effet
`num_ctx`	Taille de la fenêtre de contexte en tokens (par défaut dépend du modèle, souvent 2048–4096)
`temperature`	Aléatoire : 0 = déterministe, 1 = créatif
`top_p`	Seuil de sélection nucleus
`top_k`	Limite le vocabulaire aux k premiers tokens
`num_predict`	Nombre maximum de tokens à générer (-1 = illimité)
`repeat_penalty`	Pénalité pour les tokens répétés

Entrée multiligne dans le REPL

Entourez le texte avec des triples guillemets ("\"\"\") pour entrer un prompt multiligne sans soumettre trop tôt :

>>> """Résumez cela en une phrase :
... Le renard brun rapide saute par-dessus le chien paresseux.
... Cela s'est produit un mardi.
... """

Modèles multimodaux (images)

Pour les modèles capables de vision (par exemple gemma3, llava), transmettez le chemin de l’image directement dans le prompt :

ollama run gemma3 "Qu'est-ce qu'il y a dans cette image ? /home/user/screenshot.png"

Générer des embeddings via CLI

Les modèles d’embeddings sortent un tableau JSON au lieu de texte. Redirigez directement le texte pour des embeddings rapides :

echo "Bonjour monde" | ollama run nomic-embed-text

Pour les charges de travail d’embeddings en production, utilisez l’endpoint REST /api/embeddings ou le client Python à la place.

Forcer la sortie JSON (–format)

ollama run llama3.2 --format json "Listez 5 villes capitales sous forme de JSON"

Le modèle est instruit de retourner un JSON valide. Utile lorsqu’on redirige la sortie vers jq ou un script qui attend des données structurées.

Commande ollama stop

Cette commande arrête le modèle spécifié en cours d’exécution.

ollama stop llama3.1:8b-instruct-q8_0

Ollama évacue les modèles automagiquement après un certain temps. Vous pouvez spécifier ce temps, par défaut c’est 4 minutes. Si vous ne souhaitez pas attendre le temps restant, vous pouvez utiliser cette commande ollama stop. Vous pouvez également expulser le modèle de la VRAM en appelant l’endpoint API /generate avec le paramètre keep_alive=0, voir ci-dessous pour la description et l’exemple.

Commande ollama ps

ollama ps affiche les modèles et les sessions actuellement en cours d’exécution (utile pour déboguer « pourquoi ma VRAM est pleine ? »).

ollama ps

Un exemple de la sortie ollama ps est ci-dessous :

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutes à partir de maintenant

Vous voyez ici sur mon PC que le gpt-oss:20b s’adapte très bien à la VRAM de mon GPU de 16 Go, et occupe seulement 14 Go.

Si j’exécute ollama run gpt-oss:120b et puis appelle ollama ps, le résultat ne sera pas aussi brillant : 78 % des couches sont sur le CPU, et c’est juste avec la fenêtre de contexte 4096 tokens. Ce serait pire si j’avais besoin d’augmenter le contexte.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutes à partir de maintenant

Commande ollama launch (intégrations d’assistants de code IA)

ollama launch est une commande introduite dans Ollama v0.15 (janvier 2026) qui vous donne un setup sans configuration, une ligne de commande pour des assistants populaires d’écriture de code IA s’exécutant contre votre serveur Ollama local.

Pourquoi utiliser ollama launch ?

Avant ollama launch, le câblage d’un agent de codage comme Claude Code ou Codex à un backend Ollama local signifiait manuellement définir des variables d’environnement, pointer l’outil vers le bon point de terminaison API et choisir un modèle compatible. ollama launch gère tout cela pour vous de manière interactive.

Si vous exécutez déjà Ollama localement et souhaitez un assistant d’écriture de code agente sans payer pour des appels API ou envoyer du code au cloud, ollama launch est le chemin le plus rapide pour y arriver.

Intégrations prises en charge

Intégration	Ce que c’est
`claude`	Anthropic’s Claude Code — assistant d’écriture de code agente
`codex`	OpenAI’s Codex CLI assistant d’écriture de code
`droid`	Factory’s agent de codage IA
`opencode`	Assistant d’écriture de code open-source

Utilisation de base

# Choix interactif — choisir une intégration depuis un menu
ollama launch

# Lancer directement une intégration spécifique
ollama launch claude

# Lancer avec un modèle spécifique
ollama launch claude --model qwen3-coder

# Configurer l'intégration sans la lancer (utile pour inspecter les paramètres)
ollama launch droid --config

Modèles recommandés

Les agents de codage ont besoin d’une grande fenêtre de contexte pour contenir le contexte complet d’un fichier et l’historique des conversations multi-tours. Ollama recommande des modèles avec au moins 64 000 tokens de contexte :

Modèle	Notes
`qwen3-coder`	Bonne performance de codage, long contexte, s’exécute localement
`glm-4.7-flash`	Option locale rapide
`devstral:24b`	Modèle de codage focalisé de Mistral

Si votre GPU ne peut pas contenir le modèle, Ollama propose également des variantes hébergées en cloud (par exemple qwen3-coder:480b-cloud) qui s’intègrent de la même manière mais déroutent l’inférence vers le niveau cloud d’Ollama — nécessitant ollama signin.

Exemple : exécuter Claude Code localement avec Ollama

# 1. Assurez-vous que le modèle est disponible
ollama pull qwen3-coder

# 2. Lancer Claude Code contre celui-ci
ollama launch claude --model qwen3-coder

Ollama définit les variables d’environnement nécessaires et démarre Claude Code pointant vers http://localhost:11434 automatiquement. Vous pouvez ensuite utiliser Claude Code exactement comme d’habitude — la seule différence est que l’inférence se fait sur votre propre matériel.

Réglages de performance (`OLLAMA_NUM_PARALLEL`)

Si vous voyez des files d’attente ou des délais d’expiration sous charge, le premier réglage à apprendre est OLLAMA_NUM_PARALLEL.

OLLAMA_NUM_PARALLEL = nombre de requêtes que Ollama exécute en parallèle.
Une valeur plus élevée peut augmenter le débit, mais peut augmenter la pression sur la VRAM et les pics de latence.

Exemple rapide :

OLLAMA_NUM_PARALLEL=2 ollama serve

Pour une explication complète (y compris les stratégies de réglage et les modes de défaillance), voir :

Comment Ollama gère les requêtes parallèles

Libérer un modèle Ollama de la VRAM (keep_alive)

Lorsqu’un modèle est chargé en VRAM (mémoire du GPU), il reste là même après que vous ayez fini de l’utiliser. Pour libérer explicitement un modèle de la VRAM et libérer de la mémoire GPU, vous pouvez envoyer une requête à l’API Ollama avec keep_alive: 0.

Libérer le modèle de la VRAM en utilisant curl :

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Remplacez MODELNAME par votre nom de modèle réel, par exemple :

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Libérer le modèle de la VRAM en utilisant Python :

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Cela est particulièrement utile lorsque :

Vous avez besoin de libérer de la mémoire GPU pour d’autres applications
Vous exécutez plusieurs modèles et souhaitez gérer l’utilisation de la VRAM
Vous avez terminé d’utiliser un grand modèle et souhaitez libérer les ressources immédiatement

Note : Le paramètre keep_alive contrôle pendant combien de temps (en secondes) un modèle reste chargé en mémoire après la dernière requête. Le définir à 0 le décharge immédiatement du modèle de la VRAM.

Personnaliser les modèles Ollama (prompt système, Modelfile)

Définir le prompt système : Dans le REPL Ollama, vous pouvez définir un prompt système pour personnaliser le comportement du modèle :
```
>>> /set system Pour toutes les questions posées, répondez en anglais simple en évitant autant que possible le jargon technique
>>> /save ipe
>>> /bye
```
Ensuite, exécutez le modèle personnalisé :
```
ollama run ipe
```
Cela définit un prompt système et sauvegarde le modèle pour une utilisation future.
Créer un fichier de modèle personnalisé : Créez un fichier texte (par exemple, custom_model.txt) avec la structure suivante :
```
FROM llama3.1
SYSTEM [Vos instructions personnalisées ici]
```
Ensuite, exécutez :
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
Cela crée un modèle personnalisé basé sur les instructions du fichier".

Connexion et déconnexion d’Ollama (authentification du registre)

ollama signin
ollama signout

ollama signin authentifie votre installation locale d’Ollama avec le registre Ollama à ollama.com. Une fois connecté, le client stocke les identifiants localement et les réutilise automatiquement pour les commandes suivantes.

Ce que la connexion permet :

Télécharger et pousser des modèles privés depuis votre compte ou organisation.
Utiliser des modèles hébergés en cloud (par exemple qwen3-coder:480b-cloud) qui sont trop volumineux pour s’exécuter localement.
Publier des modèles sur le registre avec ollama push.

Alternative : authentification par clé API

Si vous exécutez Ollama dans un pipeline CI ou un serveur headless où une connexion interactive ollama signin n’est pas pratique, créez une clé API dans vos paramètres de compte Ollama et la exposez comme variable d’environnement :

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

La variable OLLAMA_API_KEY est automatiquement prise en charge par chaque commande Ollama et chaque requête API — aucun besoin de lancer ollama signin sur chaque machine.

Utiliser la commande ollama run avec des fichiers (résumer, rediriger)

Résumer le texte d’un fichier :
```
ollama run llama3.2 "Résumez le contenu de ce fichier en 50 mots." < input.txt
```
Cette commande résume le contenu de input.txt à l’aide du modèle spécifié.
Enregistrer les réponses du modèle dans un fichier :
```
ollama run llama3.2 "Dites-moi sur les énergies renouvelables." > output.txt
```
Cette commande enregistre la réponse du modèle dans output.txt.

Cas d’utilisation du CLI Ollama (génération de texte, analyse)

Génération de texte :

Résumer un grand fichier de texte :

ollama run llama3.2 "Résumez le texte suivant :" < long-document.txt

Générer du contenu :

ollama run llama3.2 "Écrivez un court article sur les avantages d'utiliser l'IA en santé." > article.txt

Répondre à des questions spécifiques :

ollama run llama3.2 "Quelles sont les dernières tendances en IA, et comment affecteront-elles la santé ?"

Traitement et analyse des données :
- Classer le texte en positif, négatif ou neutre :
```
ollama run llama3.2 "Analysez le sentiment de ce commentaire client : 'Le produit est fantastique, mais la livraison était lente.'"
```
- Catégoriser le texte dans des catégories prédéfinies : Utilisez des commandes similaires pour classer ou catégoriser le texte selon des critères prédéfinis.

Utilisation d’Ollama avec Python (client et API)

Installer la bibliothèque Python Ollama :
```
pip install ollama
```

Générer du texte à l’aide de Python :

import ollama

response = ollama.generate(model='gemma:2b', prompt='qu'est-ce qu'un qubit ?')
print(response['response'])

Ce fragment de code génère du texte à l’aide du modèle et du prompt spécifiés.

Pour une intégration Python avancée, explorez utiliser l’API de recherche Web d’Ollama en Python, qui couvre les capacités de recherche Web, les appels d’outils et l’intégration avec des serveurs MCP. Si vous construisez des applications alimentées par l’IA, notre comparaison des assistants de codage IA peut vous aider à choisir les bons outils pour le développement.

Recherchez une interface web ? Ouvrir WebUI fournit une interface auto-hébergée avec des capacités RAG et un support multi-utilisateurs. Pour des déploiements de production à haute performance, envisagez vLLM comme alternative. Pour comparer Ollama avec d’autres choix d’infrastructure locale et cloud pour les LLM, consultez LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Feuille de rappel de la CLI Ollama : ls, serve, run, ps + commandes (mise à jour 2026)

Installation d’Ollama (téléchargement et installation CLI)

Exigences système d’Ollama (RAM, stockage, CPU)

Commandes CLI de base d’Ollama

CLI Ollama (à quoi sert)

Gestion des modèles Ollama : commandes pull et list

Commande ollama show

Commande ollama serve

Commande ollama run

Exemples de commandes ollama run

Drapeaux de la commande ollama run (référence complète)

Surcharger les paramètres du modèle sans un fichier Modelfile (-p / –parameters)

Entrée multiligne dans le REPL

Modèles multimodaux (images)

Générer des embeddings via CLI

Forcer la sortie JSON (–format)

Commande ollama stop

Commande ollama ps

Commande ollama launch (intégrations d’assistants de code IA)

Pourquoi utiliser ollama launch ?

Intégrations prises en charge

Utilisation de base

Modèles recommandés

Exemple : exécuter Claude Code localement avec Ollama

Réglages de performance (`OLLAMA_NUM_PARALLEL`)

Libérer un modèle Ollama de la VRAM (keep_alive)

Personnaliser les modèles Ollama (prompt système, Modelfile)

Connexion et déconnexion d’Ollama (authentification du registre)

Utiliser la commande ollama run avec des fichiers (résumer, rediriger)

Cas d’utilisation du CLI Ollama (génération de texte, analyse)

Utilisation d’Ollama avec Python (client et API)

Liens utiles

Configuration et gestion

Alternatives et comparaisons

Performance et matériel

Intégration et développement

Installation d’Ollama (téléchargement et installation CLI)

Exigences système d’Ollama (RAM, stockage, CPU)

Commandes CLI de base d’Ollama

CLI Ollama (à quoi sert)

Gestion des modèles Ollama : commandes pull et list

Commande ollama show

Commande ollama serve

Commande ollama run

Exemples de commandes ollama run

Drapeaux de la commande ollama run (référence complète)

Surcharger les paramètres du modèle sans un fichier Modelfile (-p / –parameters)

Entrée multiligne dans le REPL

Modèles multimodaux (images)

Générer des embeddings via CLI

Forcer la sortie JSON (–format)

Commande ollama stop

Commande ollama ps

Commande ollama launch (intégrations d’assistants de code IA)

Pourquoi utiliser ollama launch ?

Intégrations prises en charge

Utilisation de base

Modèles recommandés

Exemple : exécuter Claude Code localement avec Ollama

Réglages de performance (OLLAMA_NUM_PARALLEL)

Libérer un modèle Ollama de la VRAM (keep_alive)

Personnaliser les modèles Ollama (prompt système, Modelfile)

Connexion et déconnexion d’Ollama (authentification du registre)

Utiliser la commande ollama run avec des fichiers (résumer, rediriger)

Cas d’utilisation du CLI Ollama (génération de texte, analyse)

Utilisation d’Ollama avec Python (client et API)

Liens utiles

Configuration et gestion

Alternatives et comparaisons

Performance et matériel

Intégration et développement

Réglages de performance (`OLLAMA_NUM_PARALLEL`)