Feuille de rappel de la CLI Ollama : ls, serve, run, ps + commandes (mise à jour 2026)
Liste mise à jour des commandes Ollama - ls, ps, run, serve, etc.
Ce Ollama CLI cheatsheet se concentre sur les commandes que vous utilisez tous les jours (ollama ls, ollama serve, ollama run, ollama ps, gestion des modèles et flux de travail courants), avec des exemples que vous pouvez copier/coller.
Il inclut également une courte section « réglages de performance » pour vous aider à découvrir (et ensuite à explorer en détail) OLLAMA_NUM_PARALLEL et les paramètres associés.

Ce Ollama cheatsheet se concentre sur les commandes CLI, la gestion des modèles et la personnalisation, Mais nous avons également ici quelques appels curl.
Pour avoir une vue d’ensemble de la place qu’occupe Ollama parmi les options locales, auto-hébergées et cloud — y compris vLLM, Docker Model Runner, LocalAI et les fournisseurs de cloud — voir LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Si vous comparez différentes solutions d’hébergement local des LLM, consultez notre comparaison approfondie d’Ollama, vLLM, LocalAI, Jan, LM Studio et plus. Pour ceux qui cherchent des alternatives aux interfaces en ligne de commande, Docker Model Runner propose une approche différente du déploiement des LLM.
Installation d’Ollama (téléchargement et installation CLI)
- Option 1 : Télécharger depuis le site web
- Visitez ollama.com et téléchargez l’installeur pour votre système d’exploitation (Mac, Linux ou Windows).
- Option 2 : Installer via la ligne de commande
- Pour les utilisateurs Mac et Linux, utilisez la commande :
curl -fsSL https://ollama.com/install.sh | sh
- Suivez les instructions à l’écran et entrez votre mot de passe si nécessaire.
Exigences système d’Ollama (RAM, stockage, CPU)
- Système d’exploitation : Mac, Linux ou Windows
- Mémoire (RAM) : 8 Go minimum, 16 Go ou plus recommandé
- Stockage : Au moins ~10 Go d’espace libre (les fichiers de modèle peuvent être vraiment volumineux, voir ici plus Déplacer les modèles Ollama vers un autre disque)
- Processeur : Un processeur relativement moderne (des 5 dernières années). Si vous êtes curieux de savoir comment Ollama utilise différentes architectures de processeur, consultez notre analyse de comment Ollama utilise les performances et les cœurs efficaces des processeurs Intel.
Pour des charges de travail IA sérieuses, vous pourriez vouloir comparer les options matérielles. Nous avons benchmarké NVIDIA DGX Spark vs Mac Studio vs RTX-4080 performance avec Ollama, et si vous envisagez d’investir dans un matériel haut de gamme, notre analyse des prix et des capacités de DGX Spark fournit une analyse détaillée des coûts.
Commandes CLI de base d’Ollama
| Commande | Description |
|---|---|
ollama serve |
Démarrer le serveur Ollama (port par défaut 11434). |
ollama run <model> |
Exécuter le modèle spécifié dans un REPL interactif. |
ollama pull <model> |
Télécharger le modèle spécifié sur votre système. |
ollama push <model> |
Uploader un modèle sur le registre Ollama. |
ollama list |
Liste tous les modèles téléchargés. Même que ollama ls. |
ollama ps |
Affiche les modèles actuellement en cours d’exécution (chargés). |
ollama stop <model> |
Arrête (désactive) un modèle en cours d’exécution. |
ollama rm <model> |
Supprime un modèle de votre système. |
ollama cp <source> <dest> |
Copie un modèle sous un nouveau nom localement. |
ollama show <model> |
Affiche les détails d’un modèle (architecture, paramètres, modèle, etc.). |
ollama create <model> |
Crée un nouveau modèle à partir d’un fichier Modelfile. |
ollama launch [integration] |
Déploiement sans configuration de assistants d’écriture de code IA (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Authentifiez-vous avec le registre Ollama (active les modèles privés et les modèles cloud). |
ollama signout |
Déconnectez-vous du registre Ollama. |
ollama help |
Fournit de l’aide sur toute commande. |
Liens rapides : Commande ollama serve · Commande ollama launch (intégrations d’assistant de code IA) · Commande ollama run · Flags ollama run · Commande ollama ps · Commande ollama show · Ollama signin et signout (authentification du registre) · Commandes CLI de base d’Ollama · Réglages de performance (OLLAMA_NUM_PARALLEL) · Analyse approfondie des requêtes parallèles
CLI Ollama (à quoi sert)
Ollama CLI est l’interface en ligne de commande pour gérer les modèles et les exécuter/les servir localement. La plupart des workflows se réduisent à :
- Démarrer le serveur :
ollama serve - Exécuter un modèle :
ollama run <model> - Voir ce qui est chargé/à l’exécution :
ollama ps - Gérer les modèles :
ollama pull,ollama list,ollama rm
Gestion des modèles Ollama : commandes pull et list
Lister les modèles :
ollama list
C’est le même que :
ollama ls
Cette commande liste tous les modèles téléchargés sur votre système, avec leurs tailles de fichiers sur votre HDD/SSD, comme
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 semaines plus tôt
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 semaines plus tôt
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 semaines plus tôt
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 semaines plus tôt
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 semaines plus tôt
qwen3:8b 500a1f067a9f 5.2 GB 5 semaines plus tôt
qwen3:14b bdbd181c33f2 9.3 GB 5 semaines plus tôt
qwen3:30b-a3b 0b28110b7a33 18 GB 5 semaines plus tôt
devstral:24b c4b2fa0c33d7 14 GB 5 semaines plus tôt
Télécharger un modèle : ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Cette commande télécharge le modèle spécifié (par exemple, Gemma 2B, ou mistral-nemo:12b-instruct-2407-q6_K) sur votre système. Les fichiers de modèle peuvent être assez volumineux, donc surveillez l’espace utilisé par les modèles sur le disque dur, ou SSD. Vous pourriez même vouloir déplacer tous les modèles Ollama de votre répertoire home vers un autre disque plus grand et meilleur
Uploader un modèle : ollama push
ollama push my-custom-model
Uploader un modèle local vers le registre Ollama afin que d’autres puissent le télécharger.
Vous devez être connecté en premier (ollama signin) et le nom du modèle doit être préfixé par votre nom d’utilisateur Ollama, par exemple myuser/my-model.
Utilisez --insecure si vous poussez vers un registre privé via HTTP :
ollama push myuser/my-model --insecure
Copier un modèle : ollama cp
ollama cp llama3.2 my-llama3-variant
Crée une copie locale d’un modèle sous un nouveau nom sans redescendre tout. C’est pratique avant d’éditer un fichier Modelfile — copiez d’abord, personnalisez la copie, et gardez l’original intact :
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Commande ollama show
ollama show affiche des informations sur un modèle téléchargé.
ollama show qwen3:14b
Par défaut, elle affiche la fiche du modèle (architecture, longueur de contexte, longueur d’embedding, quantification, etc.). Il existe trois drapeaux utiles :
| Drapeau | Ce qu’il affiche |
|---|---|
--modelfile |
Le fichier Modelfile complet utilisé pour créer le modèle (LIGNES FROM, SYSTEM, TEMPLATE, PARAMETER) |
--parameters |
Seulement la section des paramètres (par exemple num_ctx, temperature, stop tokens) |
--verbose |
Métadonnées étendues incluant les formes de tenseurs et les comptages de couches |
# Voir exactement quel prompt système et modèle ont été utilisés pour construire un modèle
ollama show deepseek-r1:8b --modelfile
# Vérifier la taille de la fenêtre de contexte et d'autres paramètres d'inférence
ollama show qwen3:14b --parameters
# Détail complet au niveau des tenseurs (utile lors du débogage de la quantification)
ollama show llama3.2 --verbose
La sortie --modelfile est particulièrement utile avant de personnaliser un modèle : vous pouvez copier le fichier Modelfile de base et éditer à partir de là plutôt que d’écrire un nouveau à partir de zéro.
Commande ollama serve
ollama serve démarre le serveur Ollama local (port HTTP par défaut 11434).
ollama serve
“Commande ollama serve” (exemple compatible avec systemd) :
# définir les variables d'environnement, puis démarrer le serveur
# rendre ollama disponible sur l'adresse IP de l'hôte
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Commande ollama run
Exécuter un modèle :
ollama run gpt-oss:20b
Cette commande démarre le modèle spécifié et ouvre une session interactive REPL pour l’interaction. Vous voulez comprendre comment Ollama gère les requêtes multiples en parallèle ? Découvrez plus sur comment Ollama gère les requêtes parallèles dans notre analyse détaillée.
ollama run exécute un modèle en session interactive,
donc dans le cas de gpt-oss:120b vous verriez quelque chose comme
$ ollama run gpt-oss:120b
>>> Envoyez un message (/? pour l'aide)
vous pouvez taper vos questions ou commandes et le modèle répondra.
>>> qui êtes-vous ?
En pensée...
La question de l'utilisateur est "qui êtes-vous ?" Question simple. Il faut répondre comme ChatGPT, un modèle de langage IA, entraîné par OpenAI,
etc. Fournir une introduction brève. Probablement demander si on peut aider.
...terminé de penser.
Je suis ChatGPT, un modèle de langage IA créé par OpenAI. J'ai été entraîné sur une vaste gamme de textes afin de pouvoir aider
répondre aux questions, brainstormer des idées, expliquer des concepts, rédiger des écrits, résoudre des problèmes et bien plus encore. Pensez
à moi comme à un assistant virtuel polyvalent — ici pour fournir des informations, du soutien et des conversations quand vous en avez besoin. Comment puis-je vous aider aujourd'hui ?
>>> Envoyez un message (/? pour l'aide)
Pour quitter la session interactive ollama, appuyez sur Ctrl+D, ou vous pouvez taper /bye, le même résultat :
>>> /bye
$
Exemples de commandes ollama run
Pour exécuter un modèle et poser une seule question en mode non interactif :
printf "Donnez-moi 10 one-liners bash pour l'analyse des journaux.\n" | ollama run llama3.2
Si vous souhaitez voir une réponse détaillée du LLM en session ollama - exécutez le modèle avec le paramètre --verbose ou -v :
$ ollama run gpt-oss:20b --verbose
>>> qui êtes-vous ?
En pensée...
Nous devons répondre à une question simple : "qui êtes-vous ?" L'utilisateur pose la question "qui êtes-vous ?" Nous pouvons répondre que nous
sommes ChatGPT, un grand modèle de langage entraîné par OpenAI. Nous pouvons également mentionner les capacités. L'utilisateur s'attend probablement à une
introduction brève. Nous la garderons amicale.
...terminé de penser.
Je suis ChatGPT, un grand modèle de langage créé par OpenAI. Je suis ici pour aider à répondre aux questions, à offrir des explications,
à brainstormer des idées, et à discuter de sujets variés — de la science et de l'histoire à l'écriture créative et aux conseils du quotidien. N'hésitez pas à me dire ce que vous aimeriez aborder !
total duration: 1.118585707s
load duration: 106.690543ms
prompt eval count: 71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate: 2327.30 tokens/s
eval count: 132 token(s)
eval duration: 945.801569ms
eval rate: 139.56 tokens/s
>>> /bye
$
Oui, c’est bien, c’est 139 tokens par seconde. Le gpt-oss:20b est très rapide. Si vous, comme moi, avez un GPU avec 16 Go de VRAM - consultez les détails de la comparaison des vitesses des LLM dans Meilleurs LLM pour Ollama sur GPU avec 16 Go de VRAM.
Conseil : Si vous souhaitez que le modèle soit disponible via HTTP pour plusieurs applications, démarrez le serveur avec ollama serve et utilisez le client API au lieu de longues sessions interactives.
Drapeaux de la commande ollama run (référence complète)
| Drapeau | Description |
|---|---|
--verbose / -v |
Afficher les statistiques de timing (tokens/s, temps de chargement, etc.) après chaque réponse |
-p, --parameters |
Passer les paramètres du modèle en ligne sans un fichier Modelfile (voir ci-dessous) |
--format string |
Forcer un format de sortie spécifique, par exemple json |
--nowordwrap |
Désactiver le retour à la ligne automatique — utile lors de la redirection de la sortie vers des scripts |
--insecure |
Permettre de se connecter à un registre via HTTP (pour les registres privés/auto-hébergés) |
Surcharger les paramètres du modèle sans un fichier Modelfile (-p / –parameters)
Le drapeau -p vous permet de changer les paramètres d’inférence en temps réel sans créer un fichier Modelfile.
Vous pouvez empiler plusieurs drapeaux -p :
# Augmenter la fenêtre de contexte et diminuer la température
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Exécuter une tâche de codage avec une sortie déterministe
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Paramètres courants que vous pouvez définir ainsi :
| Paramètre | Effet |
|---|---|
num_ctx |
Taille de la fenêtre de contexte en tokens (par défaut dépend du modèle, souvent 2048–4096) |
temperature |
Aléatoire : 0 = déterministe, 1 = créatif |
top_p |
Seuil de sélection nucleus |
top_k |
Limite le vocabulaire aux k premiers tokens |
num_predict |
Nombre maximum de tokens à générer (-1 = illimité) |
repeat_penalty |
Pénalité pour les tokens répétés |
Entrée multiligne dans le REPL
Entourez le texte avec des triples guillemets ("\"\"\") pour entrer un prompt multiligne sans soumettre trop tôt :
>>> """Résumez cela en une phrase :
... Le renard brun rapide saute par-dessus le chien paresseux.
... Cela s'est produit un mardi.
... """
Modèles multimodaux (images)
Pour les modèles capables de vision (par exemple gemma3, llava), transmettez le chemin de l’image directement dans le prompt :
ollama run gemma3 "Qu'est-ce qu'il y a dans cette image ? /home/user/screenshot.png"
Générer des embeddings via CLI
Les modèles d’embeddings sortent un tableau JSON au lieu de texte. Redirigez directement le texte pour des embeddings rapides :
echo "Bonjour monde" | ollama run nomic-embed-text
Pour les charges de travail d’embeddings en production, utilisez l’endpoint REST /api/embeddings ou le client Python à la place.
Forcer la sortie JSON (–format)
ollama run llama3.2 --format json "Listez 5 villes capitales sous forme de JSON"
Le modèle est instruit de retourner un JSON valide. Utile lorsqu’on redirige la sortie vers jq ou un script qui attend des données structurées.
Commande ollama stop
Cette commande arrête le modèle spécifié en cours d’exécution.
ollama stop llama3.1:8b-instruct-q8_0
Ollama évacue les modèles automagiquement après un certain temps.
Vous pouvez spécifier ce temps, par défaut c’est 4 minutes.
Si vous ne souhaitez pas attendre le temps restant, vous pouvez utiliser cette commande ollama stop.
Vous pouvez également expulser le modèle de la VRAM en appelant l’endpoint API /generate avec le paramètre keep_alive=0, voir ci-dessous pour la description et l’exemple.
Commande ollama ps
ollama ps affiche les modèles et les sessions actuellement en cours d’exécution (utile pour déboguer « pourquoi ma VRAM est pleine ? »).
ollama ps
Un exemple de la sortie ollama ps est ci-dessous :
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minutes à partir de maintenant
Vous voyez ici sur mon PC que le gpt-oss:20b s’adapte très bien à la VRAM de mon GPU de 16 Go, et occupe seulement 14 Go.
Si j’exécute ollama run gpt-oss:120b et puis appelle ollama ps, le résultat ne sera pas aussi brillant :
78 % des couches sont sur le CPU, et c’est juste avec la fenêtre de contexte 4096 tokens. Ce serait pire si j’avais besoin d’augmenter le contexte.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minutes à partir de maintenant
Commande ollama launch (intégrations d’assistants de code IA)
ollama launch est une commande introduite dans Ollama v0.15 (janvier 2026) qui vous donne un setup sans configuration, une ligne de commande pour des assistants populaires d’écriture de code IA s’exécutant contre votre serveur Ollama local.
Pourquoi utiliser ollama launch ?
Avant ollama launch, le câblage d’un agent de codage comme Claude Code ou Codex à un backend Ollama local signifiait manuellement définir des variables d’environnement, pointer l’outil vers le bon point de terminaison API et choisir un modèle compatible. ollama launch gère tout cela pour vous de manière interactive.
Si vous exécutez déjà Ollama localement et souhaitez un assistant d’écriture de code agente sans payer pour des appels API ou envoyer du code au cloud, ollama launch est le chemin le plus rapide pour y arriver.
Intégrations prises en charge
| Intégration | Ce que c’est |
|---|---|
claude |
Anthropic’s Claude Code — assistant d’écriture de code agente |
codex |
OpenAI’s Codex CLI assistant d’écriture de code |
droid |
Factory’s agent de codage IA |
opencode |
Assistant d’écriture de code open-source |
Utilisation de base
# Choix interactif — choisir une intégration depuis un menu
ollama launch
# Lancer directement une intégration spécifique
ollama launch claude
# Lancer avec un modèle spécifique
ollama launch claude --model qwen3-coder
# Configurer l'intégration sans la lancer (utile pour inspecter les paramètres)
ollama launch droid --config
Modèles recommandés
Les agents de codage ont besoin d’une grande fenêtre de contexte pour contenir le contexte complet d’un fichier et l’historique des conversations multi-tours. Ollama recommande des modèles avec au moins 64 000 tokens de contexte :
| Modèle | Notes |
|---|---|
qwen3-coder |
Bonne performance de codage, long contexte, s’exécute localement |
glm-4.7-flash |
Option locale rapide |
devstral:24b |
Modèle de codage focalisé de Mistral |
Si votre GPU ne peut pas contenir le modèle, Ollama propose également des variantes hébergées en cloud (par exemple qwen3-coder:480b-cloud) qui s’intègrent de la même manière mais déroutent l’inférence vers le niveau cloud d’Ollama — nécessitant ollama signin.
Exemple : exécuter Claude Code localement avec Ollama
# 1. Assurez-vous que le modèle est disponible
ollama pull qwen3-coder
# 2. Lancer Claude Code contre celui-ci
ollama launch claude --model qwen3-coder
Ollama définit les variables d’environnement nécessaires et démarre Claude Code pointant vers http://localhost:11434 automatiquement.
Vous pouvez ensuite utiliser Claude Code exactement comme d’habitude — la seule différence est que l’inférence se fait sur votre propre matériel.
Réglages de performance (OLLAMA_NUM_PARALLEL)
Si vous voyez des files d’attente ou des délais d’expiration sous charge, le premier réglage à apprendre est OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= nombre de requêtes que Ollama exécute en parallèle.- Une valeur plus élevée peut augmenter le débit, mais peut augmenter la pression sur la VRAM et les pics de latence.
Exemple rapide :
OLLAMA_NUM_PARALLEL=2 ollama serve
Pour une explication complète (y compris les stratégies de réglage et les modes de défaillance), voir :
Libérer un modèle Ollama de la VRAM (keep_alive)
Lorsqu’un modèle est chargé en VRAM (mémoire du GPU), il reste là même après que vous ayez fini de l’utiliser. Pour libérer explicitement un modèle de la VRAM et libérer de la mémoire GPU, vous pouvez envoyer une requête à l’API Ollama avec keep_alive: 0.
- Libérer le modèle de la VRAM en utilisant curl :
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Remplacez MODELNAME par votre nom de modèle réel, par exemple :
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Libérer le modèle de la VRAM en utilisant Python :
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Cela est particulièrement utile lorsque :
- Vous avez besoin de libérer de la mémoire GPU pour d’autres applications
- Vous exécutez plusieurs modèles et souhaitez gérer l’utilisation de la VRAM
- Vous avez terminé d’utiliser un grand modèle et souhaitez libérer les ressources immédiatement
Note : Le paramètre keep_alive contrôle pendant combien de temps (en secondes) un modèle reste chargé en mémoire après la dernière requête. Le définir à 0 le décharge immédiatement du modèle de la VRAM.
Personnaliser les modèles Ollama (prompt système, Modelfile)
-
Définir le prompt système : Dans le REPL Ollama, vous pouvez définir un prompt système pour personnaliser le comportement du modèle :
>>> /set system Pour toutes les questions posées, répondez en anglais simple en évitant autant que possible le jargon technique >>> /save ipe >>> /byeEnsuite, exécutez le modèle personnalisé :
ollama run ipeCela définit un prompt système et sauvegarde le modèle pour une utilisation future.
-
Créer un fichier de modèle personnalisé : Créez un fichier texte (par exemple,
custom_model.txt) avec la structure suivante :FROM llama3.1 SYSTEM [Vos instructions personnalisées ici]Ensuite, exécutez :
ollama create mymodel -f custom_model.txt ollama run mymodelCela crée un modèle personnalisé basé sur les instructions du fichier".
Connexion et déconnexion d’Ollama (authentification du registre)
ollama signin
ollama signout
ollama signin authentifie votre installation locale d’Ollama avec le registre Ollama à ollama.com. Une fois connecté, le client stocke les identifiants localement et les réutilise automatiquement pour les commandes suivantes.
Ce que la connexion permet :
- Télécharger et pousser des modèles privés depuis votre compte ou organisation.
- Utiliser des modèles hébergés en cloud (par exemple
qwen3-coder:480b-cloud) qui sont trop volumineux pour s’exécuter localement. - Publier des modèles sur le registre avec
ollama push.
Alternative : authentification par clé API
Si vous exécutez Ollama dans un pipeline CI ou un serveur headless où une connexion interactive ollama signin n’est pas pratique, créez une clé API dans vos paramètres de compte Ollama et la exposez comme variable d’environnement :
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
La variable OLLAMA_API_KEY est automatiquement prise en charge par chaque commande Ollama et chaque requête API — aucun besoin de lancer ollama signin sur chaque machine.
Utiliser la commande ollama run avec des fichiers (résumer, rediriger)
-
Résumer le texte d’un fichier :
ollama run llama3.2 "Résumez le contenu de ce fichier en 50 mots." < input.txtCette commande résume le contenu de
input.txtà l’aide du modèle spécifié. -
Enregistrer les réponses du modèle dans un fichier :
ollama run llama3.2 "Dites-moi sur les énergies renouvelables." > output.txtCette commande enregistre la réponse du modèle dans
output.txt.
Cas d’utilisation du CLI Ollama (génération de texte, analyse)
-
Génération de texte :
- Résumer un grand fichier de texte :
ollama run llama3.2 "Résumez le texte suivant :" < long-document.txt - Générer du contenu :
ollama run llama3.2 "Écrivez un court article sur les avantages d'utiliser l'IA en santé." > article.txt - Répondre à des questions spécifiques :
ollama run llama3.2 "Quelles sont les dernières tendances en IA, et comment affecteront-elles la santé ?"
.
- Résumer un grand fichier de texte :
-
Traitement et analyse des données :
- Classer le texte en positif, négatif ou neutre :
ollama run llama3.2 "Analysez le sentiment de ce commentaire client : 'Le produit est fantastique, mais la livraison était lente.'" - Catégoriser le texte dans des catégories prédéfinies : Utilisez des commandes similaires pour classer ou catégoriser le texte selon des critères prédéfinis.
- Classer le texte en positif, négatif ou neutre :
Utilisation d’Ollama avec Python (client et API)
- Installer la bibliothèque Python Ollama :
pip install ollama - Générer du texte à l’aide de Python :
Ce fragment de code génère du texte à l’aide du modèle et du prompt spécifiés.
import ollama response = ollama.generate(model='gemma:2b', prompt='qu'est-ce qu'un qubit ?') print(response['response'])
Pour une intégration Python avancée, explorez utiliser l’API de recherche Web d’Ollama en Python, qui couvre les capacités de recherche Web, les appels d’outils et l’intégration avec des serveurs MCP. Si vous construisez des applications alimentées par l’IA, notre comparaison des assistants de codage IA peut vous aider à choisir les bons outils pour le développement.
Recherchez une interface web ? Ouvrir WebUI fournit une interface auto-hébergée avec des capacités RAG et un support multi-utilisateurs. Pour des déploiements de production à haute performance, envisagez vLLM comme alternative. Pour comparer Ollama avec d’autres choix d’infrastructure locale et cloud pour les LLM, consultez LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Liens utiles
Configuration et gestion
Alternatives et comparaisons
- Hébergement local des LLM : Guide complet 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio et plus
- Démarrage rapide de vLLM : Service de LLM à haute performance
- Docker Model Runner vs Ollama : Lequel choisir ?
- Premiers signes de la dégradation d’Ollama
Performance et matériel
- Comment Ollama gère les requêtes parallèles
- Comment Ollama utilise les performances et les cœurs efficaces des processeurs Intel
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d’Ollama
- DGX Spark vs. Mac Studio : Une vue pratique et vérifiée des prix de NVIDIA’s superordinateur personnel d’IA
Intégration et développement
- Utiliser l’API de recherche Web d’Ollama en Python
- Comparaison des assistants de codage IA
- Open WebUI : Interface web auto-hébergée pour les LLM
- Interfaces de chat open-source pour les LLM sur les instances locales d’Ollama
- Contraindre les LLM avec une sortie structurée : Ollama, Qwen3 & Python ou Go
- Intégrer Ollama avec Python : exemples d’API REST et de client Python
- SDK Go pour Ollama - comparaison avec des exemples