Hoja de referencia de la CLI de Ollama: ls, serve, run, ps y comandos (actualización 2026)
Lista de comandos de Ollama actualizada: ls, ps, run, serve, etc.
Esta hoja de trucos de la CLI de Ollama se centra en los comandos que usas a diario (ollama ls, ollama serve, ollama run, ollama ps, gestión de modelos y flujos de trabajo comunes), con ejemplos que puedes copiar y pegar.
También incluye una breve sección de “ajustes de rendimiento” para ayudarte a descubrir (y luego profundizar) en OLLAMA_NUM_PARALLEL y configuraciones relacionadas.

Esta hoja de trucos de Ollama se centra en comandos de CLI, gestión de modelos y personalización, pero también tenemos aquí algunas llamadas curl.
Para una visión completa de dónde encaja Ollama entre las opciones locales, autoalojadas y en la nube —incluyendo vLLM, Docker Model Runner, LocalAI y proveedores en la nube—, consulta Alojamiento de LLM: Infraestructura Local, Autoalojada y en la Nube Comparada. Si estás comparando diferentes soluciones de alojamiento de LLM locales, revisa nuestra comparación completa de Ollama, vLLM, LocalAI, Jan, LM Studio y más. Para aquellos que buscan alternativas a las interfaces de línea de comandos, Docker Model Runner ofrece un enfoque diferente para el despliegue de LLM.
Instalación de Ollama (descarga e instalación de CLI)
- Opción 1: Descargar desde el sitio web
- Visita ollama.com y descarga el instalador para tu sistema operativo (Mac, Linux o Windows).
- Opción 2: Instalar vía línea de comandos
- Para usuarios de Mac y Linux, usa el comando:
curl -fsSL https://ollama.com/install.sh | sh
- Sigue las instrucciones en pantalla e introduce tu contraseña si se te solicita.
Requisitos del sistema de Ollama (RAM, almacenamiento, CPU)
- Sistema Operativo: Mac, Linux o Windows
- Memoria (RAM): 8 GB como mínimo, 16 GB o más recomendado
- Almacenamiento: Al menos ~10 GB de espacio libre (los archivos de modelo pueden ser muy grandes, consulta aquí más detalles Mover Modelos de Ollama a una Unidad Diferente )
- Procesador: Un CPU relativamente moderno (de los últimos 5 años). Si te preguntas sobre cómo Ollama utiliza diferentes arquitecturas de CPU, consulta nuestro análisis de cómo Ollama usa los núcleos de rendimiento y eficientes de CPU Intel.
Para cargas de trabajo de IA serias, quizás quieras comparar opciones de hardware. Hemos probado rendimiento de NVIDIA DGX Spark vs Mac Studio vs RTX-4080 con Ollama, y si estás considerando invertir en hardware de gama alta, nuestra comparación de precios y capacidades de DGX Spark proporciona un análisis detallado de costos.
Comandos CLI básicos de Ollama
| Comando | Descripción |
|---|---|
ollama serve |
Inicia el servidor de Ollama (puerto predeterminado 11434). |
ollama run <model> |
Ejecuta el modelo especificado en un REPL interactivo. |
ollama pull <model> |
Descarga el modelo especificado a tu sistema. |
ollama push <model> |
Sube un modelo al registro de Ollama. |
ollama list |
Lista todos los modelos descargados. Igual que ollama ls. |
ollama ps |
Muestra los modelos que se están ejecutando (cargados). |
ollama stop <model> |
Detiene (descarga) un modelo en ejecución. |
ollama rm <model> |
Elimina un modelo de tu sistema. |
ollama cp <source> <dest> |
Copia un modelo con un nuevo nombre localmente. |
ollama show <model> |
Muestra detalles sobre un modelo (arquitectura, parámetros, plantilla, etc.). |
ollama create <model> |
Crea un nuevo modelo a partir de un Modelfile. |
ollama launch [integration] |
Lanzamiento sin configuración de asistentes de codificación de IA (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Autentica con el registro de Ollama (habilita modelos privados y modelos en la nube). |
ollama signout |
Cierra sesión del registro de Ollama. |
ollama help |
Proporciona ayuda sobre cualquier comando. |
Enlaces de navegación rápida: Comando Ollama serve · Comando Ollama launch · Comando Ollama run · Banderas de Ollama run · Comando Ollama ps · Comando Ollama show · Ollama signin · Básicos de CLI de Ollama · Ajustes de rendimiento (OLLAMA_NUM_PARALLEL) · Análisis profundo de solicitudes paralelas
Ollama CLI (qué es)
Ollama CLI es la interfaz de línea de comandos para gestionar modelos y ejecutarlos o servirlos localmente. La mayoría de los flujos de trabajo se reducen a:
- Iniciar el servidor:
ollama serve - Ejecutar un modelo:
ollama run <model> - Ver qué está cargado/ejecutándose:
ollama ps - Gestionar modelos:
ollama pull,ollama list,ollama rm
Gestión de modelos de Ollama: comandos pull y list
Listar Modelos:
ollama list
lo mismo que:
ollama ls
Este comando lista todos los modelos que han sido descargados en tu sistema, con sus tamaños de archivo en tu HDD/SSD, como en:
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 semanas atrás
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 semanas atrás
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 semanas atrás
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 semanas atrás
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 semanas atrás
qwen3:8b 500a1f067a9f 5.2 GB 5 semanas atrás
qwen3:14b bdbd181c33f2 9.3 GB 5 semanas atrás
qwen3:30b-a3b 0b28110b7a33 18 GB 5 semanas atrás
devstral:24b c4b2fa0c33d7 14 GB 5 semanas atrás
Descargar un Modelo: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Este comando descarga el modelo especificado (por ejemplo, Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) a tu sistema. Los archivos del modelo pueden ser bastante grandes, así que mantén un ojo en el espacio utilizado por los modelos en el disco duro o SSD. Quizás incluso quieras mover todos los modelos de Ollama desde tu directorio de inicio a otra unidad más grande y mejor
Subir un Modelo: ollama push
ollama push my-custom-model
Sube un modelo local al registro de Ollama para que otros puedan descargarlo.
Necesitas haber iniciado sesión primero (ollama signin) y el nombre del modelo debe tener el prefijo de tu usuario de Ollama, por ejemplo myuser/my-model.
Usa --insecure si estás subiendo a un registro privado sobre HTTP:
ollama push myuser/my-model --insecure
Copiar un Modelo: ollama cp
ollama cp llama3.2 my-llama3-variant
Crea una copia local de un modelo con un nuevo nombre sin volver a descargar nada. Esto es útil antes de editar un Modelfile: copia primero, personaliza la copia y mantén el original intacto:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Comando Ollama show
ollama show imprime información sobre un modelo descargado.
ollama show qwen3:14b
Por defecto, imprime la tarjeta del modelo (arquitectura, longitud de contexto, longitud de incrustación, cuantización, etc.). Hay tres banderas útiles:
| Bandera | Qué muestra |
|---|---|
--modelfile |
El Modelfile completo utilizado para crear el modelo (líneas FROM, SYSTEM, TEMPLATE, PARAMETER) |
--parameters |
Solo el bloque de parámetros (por ejemplo, num_ctx, temperature, tokens stop) |
--verbose |
Metadatos extendidos incluyendo formas de tensores y conteo de capas |
# Ver exactamente qué prompt del sistema y plantilla se usaron para construir un modelo
ollama show deepseek-r1:8b --modelfile
# Verificar el tamaño de la ventana de contexto y otros parámetros de inferencia
ollama show qwen3:14b --parameters
# Detalle completo a nivel de tensor (útil al depurar cuantización)
ollama show llama3.2 --verbose
La salida de --modelfile es especialmente útil antes de personalizar un modelo: puedes copiar el Modelfile base y editar desde allí en lugar de escribir uno desde cero.
Comando Ollama serve
ollama serve inicia el servidor local de Ollama (puerto HTTP predeterminado 11434).
ollama serve
Comando “ollama serve” (ejemplo amigable con systemd):
# establecer variables de entorno, luego iniciar el servidor
# hacer que ollama esté disponible en la dirección IP del host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Comando Ollama run
Ejecutar un Modelo:
ollama run gpt-oss:20b
Este comando inicia el modelo especificado y abre un REPL interactivo para la interacción. ¿Quieres entender cómo Ollama gestiona múltiples solicitudes concurrentes? Aprende más sobre cómo Ollama maneja las solicitudes paralelas en nuestro análisis detallado.
ollama run ejecuta un modelo en una sesión interactiva,
así que en el caso de gpt-oss:120b verías algo como
$ ollama run gpt-oss:120b
>>> Envía un mensaje (/? para ayuda)
puedes escribir tus preguntas o comandos y el modelo responderá.
>>> ¿quién eres?
Pensando...
El usuario pregunta "¿quién eres?" Pregunta sencilla. Debería responder como ChatGPT, un modelo de lenguaje de IA, entrenado por OpenAI,
etc. Proporcionar una breve introducción. Probablemente preguntar si necesitan ayuda.
...hecho de pensar.
Soy ChatGPT, un modelo de lenguaje de IA creado por OpenAI. He sido entrenado en una amplia gama de textos para poder ayudar a
responder preguntas, generar ideas, explicar conceptos, redactar escritos, solucionar problemas y mucho más. Piensa
en mí como un asistente virtual versátil: aquí para proporcionar información, apoyo y conversación cuando lo necesites.
¿En qué puedo ayudarte hoy?
>>> Envía un mensaje (/? para ayuda)
Para salir de la sesión interactiva de ollama, presiona Ctrl+D, o puedes escribir /bye, el resultado es el mismo:
>>> /bye
$
Ejemplos del comando Ollama run
Para ejecutar un modelo y hacer una sola pregunta en modo no interactivo:
printf "Dame 10 one-liners de bash para análisis de logs.\n" | ollama run llama3.2
Si quieres ver una respuesta LLM detallada y verbosa en la sesión de ollama, ejecuta el modelo con el parámetro --verbose o -v:
$ ollama run gpt-oss:20b --verbose
>>> ¿quién eres?
Pensando...
Necesitamos responder a una pregunta sencilla: "¿quién eres?" El usuario está preguntando "¿quién eres?" Podemos responder que
somos ChatGPT, un modelo de lenguaje grande entrenado por OpenAI. También podemos mencionar capacidades. El usuario probablemente espera
una breve introducción. La mantendremos amigable.
...hecho de pensar.
Soy ChatGPT, un modelo de lenguaje grande creado por OpenAI. Estoy aquí para ayudar a responder preguntas, ofrecer explicaciones,
generar ideas y hablar sobre una amplia gama de temas: desde ciencia e historia hasta escritura creativa
y consejos cotidianos. ¡Solo dime de qué te gustaría hablar!
duración total: 1.118585707s
duración de carga: 106.690543ms
conteo de evaluación de prompt: 71 token(s)
duración de evaluación de prompt: 30.507392ms
tasa de evaluación de prompt: 2327.30 tokens/s
conteo de evaluación: 132 token(s)
duración de evaluación: 945.801569ms
tasa de evaluación: 139.56 tokens/s
>>> /bye
$
Sí, es cierto, son 139 tokens por segundo. El gpt-oss:20b es muy rápido. Si tú, como yo, tienes una GPU con 16 GB de VRAM - consulta los detalles de la comparación de velocidad de LLMs en Mejores LLMs para Ollama en GPU con 16 GB de VRAM.
Consejo: Si quieres que el modelo esté disponible vía HTTP para múltiples aplicaciones, inicia el servidor con ollama serve y usa el cliente de API en lugar de sesiones interactivas largas.
Banderas del comando Ollama run (referencia completa)
| Bandera | Descripción |
|---|---|
--verbose / -v |
Imprimir estadísticas de tiempo (tokens/s, tiempo de carga, etc.) después de cada respuesta |
-p, --parameters |
Pasar parámetros del modelo en línea sin un Modelfile (consulta abajo) |
--format string |
Forzar un formato de salida específico, por ejemplo json |
--nowordwrap |
Desactivar el ajuste automático de palabras — útil al dirigir la salida a scripts |
--insecure |
Permitir conectarse a un registro sobre HTTP (para registros privados/autoalojados) |
Sobrescribir parámetros del modelo sin un Modelfile (-p / –parameters)
La bandera -p te permite cambiar parámetros de inferencia en tiempo de ejecución sin crear un Modelfile.
Puedes apilar múltiples banderas -p:
# Aumentar la ventana de contexto y reducir la temperatura
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Ejecutar una tarea de codificación con salida determinista
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Parámetros comunes que puedes establecer de esta manera:
| Parámetro | Efecto |
|---|---|
num_ctx |
Tamaño de la ventana de contexto en tokens (el predeterminado depende del modelo, a menudo 2048–4096) |
temperature |
Aleatoriedad: 0 = determinista, 1 = creativo |
top_p |
Umbral de muestreo de núcleo |
top_k |
Limita el vocabulario a los top-K tokens |
num_predict |
Tokens máximos a generar (-1 = ilimitado) |
repeat_penalty |
Penalización por repetir tokens |
Entrada multilinea en el REPL
Envuelve el texto en triples comillas (""") para ingresar un prompt de varias líneas sin enviarlo prematuramente:
>>> """Resume esto en una oración:
... El zorro marrón rápido salta sobre el perro perezoso.
... Sucedió un martes.
... """
Modelos multimodales (imágenes)
Para modelos con capacidad de visión (por ejemplo, gemma3, llava), pasa una ruta de imagen directamente en el prompt:
ollama run gemma3 "¿Qué hay en esta imagen? /home/user/screenshot.png"
Generar incrustaciones (embeddings) vía CLI
Los modelos de incrustación (embedding) generan una matriz JSON en lugar de texto. Dirige texto directamente para incrustaciones rápidas:
echo "Hola mundo" | ollama run nomic-embed-text
Para cargas de trabajo de incrustaciones en producción, usa el endpoint REST /api/embeddings o el cliente de Python en su lugar.
Forzar salida JSON (–format)
ollama run llama3.2 --format json "Lista 5 capitales como JSON"
El modelo se instruye para devolver JSON válido. Útil al dirigir la salida a jq o un script que espere datos estructurados.
Comando Ollama stop
Este comando detiene el modelo especificado que se está ejecutando.
ollama stop llama3.1:8b-instruct-q8_0
Ollama expulsa los modelos automáticamente después de cierto tiempo.
Puedes especificar este tiempo, por defecto es de 4 minutos.
Si no quieres esperar el tiempo restante, quizás quieras usar este comando ollama stop.
También puedes sacar el modelo de la VRAM llamando al endpoint de API /generate con el parámetro keep_alive=0, consulta abajo la descripción y el ejemplo.
Comando Ollama ps
ollama ps muestra los modelos y sesiones que se están ejecutando actualmente (útil para depurar “¿por qué está llena mi VRAM?”).
ollama ps
El ejemplo de la salida de ollama ps es el siguiente:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minutos desde ahora
Aquí ves en mi PC que gpt-oss:20b cabe muy bien en los 16 GB de VRAM de mi GPU y ocupa solo 14 GB.
Si ejecuto ollama run gpt-oss:120b y luego llamo a ollama ps, el resultado no será tan brillante:
el 78% de las capas están en la CPU, y esto es solo con la ventana de contexto de 4096 tokens. Sería más si necesitara aumentar el contexto.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minutos desde ahora
Comando Ollama launch (integraciones de codificación de IA)
ollama launch es un comando introducido en Ollama v0.15 (enero de 2026) que te ofrece una configuración sin configuración y de una línea para asistentes de codificación de IA populares que funcionan contra tu servidor local de Ollama.
¿Por qué usar ollama launch?
Antes de ollama launch, conectar un agente de codificación como Claude Code o Codex a un backend local de Ollama implicaba configurar manualmente variables de entorno, apuntar la herramienta al endpoint de API correcto y elegir un modelo compatible. ollama launch maneja todo eso por ti de forma interactiva.
Si ya ejecutas Ollama localmente y quieres un asistente de codificación agente sin pagar llamadas a la API o enviar código a la nube, ollama launch es el camino más rápido para llegar ahí.
Integraciones soportadas
| Integración | Qué es |
|---|---|
claude |
Claude Code de Anthropic — asistente de codificación agente |
codex |
Asistente de codificación CLI de OpenAI Codex |
droid |
Agente de codificación de IA de Factory |
opencode |
Asistente de codificación de código abierto |
Uso básico
# Selector interactivo — elige una integración de un menú
ollama launch
# Lanzar una integración específica directamente
ollama launch claude
# Lanzar con un modelo específico
ollama launch claude --model qwen3-coder
# Configurar la integración sin lanzarla (útil para inspeccionar configuraciones)
ollama launch droid --config
Modelos recomendados
Los agentes de codificación necesitan una ventana de contexto larga para mantener el contexto de archivos completos y el historial de conversaciones de múltiples turnos. Ollama recomienda modelos con al menos 64 000 tokens de contexto:
| Modelo | Notas |
|---|---|
qwen3-coder |
Fuerte rendimiento de codificación, contexto largo, se ejecuta localmente |
glm-4.7-flash |
Opción local rápida |
devstral:24b |
Modelo enfocado en codificación de Mistral |
Si tu GPU no puede alojar el modelo, Ollama también ofrece variantes alojadas en la nube (por ejemplo, qwen3-coder:480b-cloud) que se integran de la misma manera pero enrutan la inferencia a la capa en la nube de Ollama —requiriendo ollama signin.
Ejemplo: ejecutar Claude Code localmente con Ollama
# 1. Asegúrate de que el modelo esté disponible
ollama pull qwen3-coder
# 2. Lanzar Claude Code contra él
ollama launch claude --model qwen3-coder
Ollama establece las variables de entorno necesarias e inicia Claude Code apuntando a http://localhost:11434 automáticamente.
Luego puedes usar Claude Code exactamente como lo harías normalmente: la única diferencia es que la inferencia ocurre en tu propio hardware.
Ajustes de rendimiento (OLLAMA_NUM_PARALLEL)
Si ves colas o tiempos de espera bajo carga, el primer ajuste que debes aprender es OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= cuántas solicitudes ejecuta Ollama en paralelo.- Un valor más alto puede aumentar el rendimiento, pero puede aumentar la presión de VRAM y los picos de latencia.
Ejemplo rápido:
OLLAMA_NUM_PARALLEL=2 ollama serve
Para una explicación completa (incluyendo estrategias de ajuste y modos de fallo), consulta:
Liberar modelo de Ollama de VRAM (keep_alive)
Cuando un modelo se carga en VRAM (memoria GPU), permanece allí incluso después de terminar de usarlo. Para liberar explícitamente un modelo de VRAM y liberar memoria GPU, puedes enviar una solicitud a la API de Ollama con keep_alive: 0.
- Liberar modelo de VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Reemplaza MODELNAME con tu nombre de modelo real, por ejemplo:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Liberar modelo de VRAM usando Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Esto es particularmente útil cuando:
- Necesitas liberar memoria GPU para otras aplicaciones
- Estás ejecutando múltiples modelos y quieres gestionar el uso de VRAM
- Has terminado de usar un modelo grande y quieres liberar recursos inmediatamente
Nota: El parámetro keep_alive controla cuánto tiempo (en segundos) un modelo permanece cargado en memoria después de la última solicitud. Establecerlo en 0 descarga inmediatamente el modelo de VRAM.
Si prefieres evitar por completo la capa de abstracción de Ollama y quieres control directo sobre qué modelo GGUF reside en cualquier momento, modo enrutador de llama-server cubre el enfoque nativo de llama.cpp para el cambio dinámico de modelos.
Personalizar modelos de Ollama (prompt del sistema, Modelfile)
-
Establecer Prompt del Sistema: Dentro del REPL de Ollama, puedes establecer un prompt del sistema para personalizar el comportamiento del modelo:
>>> /set system Para todas las preguntas, responde en inglés plano evitando jerga técnica tanto como sea posible >>> /save ipe >>> /byeLuego, ejecuta el modelo personalizado:
ollama run ipeEsto establece un prompt del sistema y guarda el modelo para uso futuro.
-
Crear Archivo de Modelo Personalizado: Crea un archivo de texto (por ejemplo,
custom_model.txt) con la siguiente estructura:FROM llama3.1 SYSTEM [Tus instrucciones personalizadas aquí]Luego, ejecuta:
ollama create mymodel -f custom_model.txt ollama run mymodelEsto crea un modelo personalizado basado en las instrucciones del archivo.
Ollama signin y signout (autenticación de registro)
ollama signin
ollama signout
ollama signin autentica tu instalación local de Ollama con el registro de Ollama en ollama.com. Una vez iniciado sesión, el cliente almacena las credenciales localmente y las reutiliza automáticamente para comandos posteriores.
Qué desbloquea signin:
- Descargar y subir modelos privados desde tu cuenta u organización.
- Usar modelos alojados en la nube (por ejemplo,
qwen3-coder:480b-cloud) que son demasiado grandes para ejecutarlos localmente. - Publicar modelos en el registro con
ollama push.
Alternativa: autenticación con clave de API
Si estás ejecutando Ollama en un pipeline de CI o un servidor sin interfaz gráfica donde ollama signin interactivo no es práctico, crea una clave de API en la configuración de tu cuenta de Ollama y expónla como una variable de entorno:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
La variable OLLAMA_API_KEY se recopila automáticamente por cada comando de Ollama y solicitud de API —no necesitas ejecutar ollama signin en cada máquina.
Usar el comando Ollama run con archivos (resumir, redirigir)
-
Resumir Texto desde un Archivo:
ollama run llama3.2 "Resume el contenido de este archivo en 50 palabras." < input.txtEste comando resume el contenido de
input.txtusando el modelo especificado. -
Registrar Respuestas del Modelo en un Archivo:
ollama run llama3.2 "Cuéntame sobre la energía renovable." > output.txtEste comando guarda la respuesta del modelo en
output.txt.
Casos de uso de CLI de Ollama (generación de texto, análisis)
-
Generación de Texto:
- Resumir un archivo de texto grande:
ollama run llama3.2 "Resume el siguiente texto:" < long-document.txt - Generar contenido:
ollama run llama3.2 "Escribe un artículo corto sobre los beneficios de usar IA en la atención médica." > article.txt - Responder preguntas específicas:
ollama run llama3.2 "¿Cuáles son las últimas tendencias en IA y cómo afectarán a la atención médica?"
.
- Resumir un archivo de texto grande:
-
Procesamiento y Análisis de Datos:
- Clasificar texto en sentimiento positivo, negativo o neutro:
ollama run llama3.2 "Analiza el sentimiento de esta reseña de cliente: 'El producto es fantástico, pero la entrega fue lenta.'" - Categorizar texto en categorías predefinidas: Usa comandos similares para clasificar o categorizar texto basado en criterios predefinidos.
- Clasificar texto en sentimiento positivo, negativo o neutro:
Usar Ollama con Python (cliente y API)
- Instalar Biblioteca de Python de Ollama:
pip install ollama - Generar Texto Usando Python:
Este fragmento de código genera texto usando el modelo y el prompt especificados.
import ollama response = ollama.generate(model='gemma:2b', prompt='¿qué es un qubit?') print(response['response'])
Para una integración avanzada de Python, explora usar la API de Búsqueda Web de Ollama en Python, que cubre capacidades de búsqueda web, llamadas a herramientas e integración de servidores MCP. Si estás construyendo aplicaciones impulsadas por IA, nuestra comparación de Asistentes de Codificación de IA puede ayudarte a elegir las herramientas correctas para el desarrollo.
¿Buscas una interfaz basada en la web? Open WebUI proporciona una interfaz autoalojada con capacidades RAG y soporte multiusuario. Para despliegues de producción de alto rendimiento, considera vLLM como una alternativa. Para comparar Ollama con otras opciones de infraestructura local y en la nube de LLM, consulta Alojamiento de LLM: Infraestructura Local, Autoalojada y en la Nube Comparada.
Enlaces útiles
Configuración y Gestión
Alternativas y Comparaciones
- Alojamiento Local de LLM: Guía Completa 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio y Más
- Inicio Rápido de vLLM: Servidor de LLM de Alto Rendimiento
- Docker Model Runner vs Ollama: ¿Cuál Elegir?
- Primeras Señales de la Enshittificación de Ollama
Rendimiento y Hardware
- Cómo Ollama Maneja las Solicitudes Paralelas
- Cómo Ollama usa los Núcleos de Rendimiento y Eficientes de CPU Intel
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación de Rendimiento de Ollama
- DGX Spark vs. Mac Studio: Una Mirada Práctica y Verificada de Precios al Superorden Personal de IA de NVIDIA
Integración y Desarrollo
- Usar la API de Búsqueda Web de Ollama en Python
- Comparación de Asistentes de Codificación de IA
- Open WebUI: Interfaz de LLM Autoalojada
- Interfaz de Chat de Código Abierto para LLMs en Instancias Locales de Ollama
- Restringir LLMs con Salida Estructurada: Ollama, Qwen3 y Python o Go
- Integrar Ollama con Python: Ejemplos de API REST y Cliente Python
- SDKs de Go para Ollama - comparación con ejemplos