Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1
Mi propia prueba de programación del modelo ollama
Aquí estoy comparando cómo mucho VRAM la nueva versión de Ollama asigna al modelo con la versión anterior de Ollama. La nueva versión es peor.
Para más información sobre throughput, latencia, VRAM y benchmarks en diferentes entornos de ejecución y hardware, vea Rendimiento de LLM: Benchmarks, cuellos de botella y optimización.
Como se menciona en el sitio web oficial la nueva versión de Ollama tiene Nueva programación de modelos con
Maximizando el uso de la GPU:
La nueva gestión de memoria de Ollama asigna más memoria a la GPU,
aumentando la velocidad de generación y procesamiento de tokens
y se dan algunos ejemplos, por ejemplo:
Contexto largo
GPU: 1x NVIDIA GeForce RTX 4090
Modelo: gemma3:12b
Longitud del contexto: 128k
Antiguo Nuevo
52.02 tokens/s velocidad de generación de tokens 85.54 tokens/s velocidad de generación de tokens
19.9GiB de VRAM 21.4GiB de VRAM
48⁄49 capas cargadas en la GPU 49⁄49 capas cargadas en la GPU
Aquí estoy probando cómo funciona en mi PC. Mis resultados son muy diferentes a los oficiales, son completamente opuestos. Tengo una configuración de hardware ligeramente diferente y probé modelos diferentes, pero los resultados no son mejores en absoluto, y a menudo peores. Esto echa por tierra el post sobre Primeras señales de enshittificación de Ollama.
Esta imagen es del blog del sitio web de Ollama.
TL;DR
He probado cómo la nueva versión de Ollama programa LLMs que no caben en mi VRAM de 16 GB.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Ejecuté ollama run <modelname>, luego una pregunta simple como ¿quién eres?, y en otro terminal revisé la respuesta de ollama ps y nvidia-smi. Todo bastante simple.
Solo qwen3:30b-a3b mostró la misma distribución CPU/GPU, los tres modelos restantes se pusieron más en la CPU en la nueva versión. En mis pruebas, a mi decepción, la nueva versión de Ollama es peor, y estos resultados contradicen el post del blog de Ollama.
Comparación detallada de datos
| Modelo | VRAM asignada en versión antigua | CPU/GPU en versión antigua | VRAM asignada en nueva versión | CPU/GPU en nueva versión |
|---|---|---|---|---|
| mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
| qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
| gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
| qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Decepcionado.
Para más benchmarks, ajustes de memoria y guía de rendimiento, revise nuestro Rendimiento de LLM: Benchmarks, cuellos de botella y optimización.