¿Cómo asigna Ollama la VRAM para los modelos?

Ollama carga las capas del modelo en la VRAM de la GPU cuando es posible. Las versiones más recientes utilizan un planificación actualizada que puede asignar más VRAM para maximizar el uso de la GPU, pero en algunos hardware y modelos la división entre CPU y GPU puede cambiar y no siempre mejorar.

¿Qué sucede si un modelo no cabe en la VRAM de mi GPU?

Ollama puede desviar algunas capas a la CPU y mantener el resto en la GPU. La división entre CPU y GPU depende de la VRAM disponible, el tamaño del modelo y la versión de Ollama. Normalmente, un mayor desvío a la CPU implica una inferencia más lenta.

¿Usa el nuevo planificador de modelos de Ollama más VRAM?

En algunos casos, el nuevo planificador asigna más VRAM y mantiene más capas en la GPU, lo que puede aumentar el número de tokens por segundo. En otros casos (por ejemplo, 16 GB de VRAM con modelos grandes), el comportamiento puede variar y una mayor carga puede pasar a la CPU.

¿Cómo puedo verificar el uso de VRAM y CPU/GPU en Ollama?

Ejecute ollama ps para obtener estadísticas por modelo y nvidia-smi para la memoria de la GPU. Estos muestran la VRAM asignada y la división de capas entre CPU y GPU para el modelo en ejecución.

¿Dónde puedo encontrar más información sobre el rendimiento de los LLM y los benchmarks?

Nuestro centro de rendimiento de LLM aborda el throughput frente a la latencia, los límites de VRAM, las solicitudes paralelas y los benchmarks en distintos entornos de ejecución y hardware.

Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1

Mi propia prueba de programación del modelo ollama

Índice

Aquí estoy comparando cómo mucho VRAM la nueva versión de Ollama asigna al modelo con la versión anterior de Ollama. La nueva versión es peor.

Para más información sobre throughput, latencia, VRAM y benchmarks en diferentes entornos de ejecución y hardware, vea Rendimiento de LLM: Benchmarks, cuellos de botella y optimización.

Como se menciona en el sitio web oficial la nueva versión de Ollama tiene Nueva programación de modelos con

Maximizando el uso de la GPU:
La nueva gestión de memoria de Ollama asigna más memoria a la GPU,
aumentando la velocidad de generación y procesamiento de tokens

y se dan algunos ejemplos, por ejemplo:

Contexto largo

    GPU: 1x NVIDIA GeForce RTX 4090
    Modelo: gemma3:12b
    Longitud del contexto: 128k

Antiguo                                   Nuevo
52.02 tokens/s velocidad de generación de tokens 85.54 tokens/s velocidad de generación de tokens
19.9GiB de VRAM                       21.4GiB de VRAM
48⁄49 capas cargadas en la GPU            49⁄49 capas cargadas en la GPU

Aquí estoy probando cómo funciona en mi PC. Mis resultados son muy diferentes a los oficiales, son completamente opuestos. Tengo una configuración de hardware ligeramente diferente y probé modelos diferentes, pero los resultados no son mejores en absoluto, y a menudo peores. Esto echa por tierra el post sobre Primeras señales de enshittificación de Ollama.

ollama llamas Esta imagen es del blog del sitio web de Ollama.

TL;DR

He probado cómo la nueva versión de Ollama programa LLMs que no caben en mi VRAM de 16 GB.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Ejecuté ollama run <modelname>, luego una pregunta simple como ¿quién eres?, y en otro terminal revisé la respuesta de ollama ps y nvidia-smi. Todo bastante simple.

Solo qwen3:30b-a3b mostró la misma distribución CPU/GPU, los tres modelos restantes se pusieron más en la CPU en la nueva versión. En mis pruebas, a mi decepción, la nueva versión de Ollama es peor, y estos resultados contradicen el post del blog de Ollama.

Comparación detallada de datos

Modelo	VRAM asignada en versión antigua	CPU/GPU en versión antigua	VRAM asignada en nueva versión	CPU/GPU en nueva versión
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Decepcionado.

Para más benchmarks, ajustes de memoria y guía de rendimiento, revise nuestro Rendimiento de LLM: Benchmarks, cuellos de botella y optimización.

TL;DR

Comparación detallada de datos

Enlaces útiles