Self-Hosting

Cómo Ollama maneja solicitudes en paralelo

Cómo Ollama maneja solicitudes en paralelo

Configurando ollama para la ejecución de solicitudes en paralelo.

Cuando el servidor Ollama recibe dos solicitudes al mismo tiempo, su comportamiento depende de su configuración y de los recursos del sistema disponibles.

Prueba de Deepseek-R1 en Ollama

Prueba de Deepseek-R1 en Ollama

Comparando dos modelos deepseek-r1 con dos modelos base

DeepSeek’s primer generación de modelos de razonamiento con un rendimiento comparable al de OpenAI-o1, incluyendo seis modelos densos destilados de DeepSeek-R1 basados en Llama y Qwen.