LLM Performance

Benchmarks de LLM con 16 GB de VRAM usando llama.cpp (velocidad y contexto)

Aquí comparo la velocidad de varios LLMs ejecutándose en una GPU con 16 GB de VRAM y selecciono el mejor para autoalojamiento.

Comparando el rendimiento de los LLMs en Ollama en una GPU con 16 GB de VRAM

Ejecutar modelos de lenguaje grandes localmente te brinda privacidad, capacidad para trabajar sin conexión y cero costos de API. Este benchmark revela exactamente lo que se puede esperar de 14 modelos populares LLMs en Ollama en una RTX 4080.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación del rendimiento de Ollama

Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65GB, lo que significa que no cabe en los 16GB de VRAM de un RTX 4080 (ni en el más reciente RTX 5080).

ASICs para LLM y chips especializados de inferencia (por qué son importantes)

El futuro de la IA no se trata solo de modelos más inteligentes. También se trata de silicio que se adapte a la forma en que esos modelos se sirven realmente. El hardware especializado para inferencia de LLM sigue una trayectoria que recuerda al cambio de la minería de Bitcoin desde las GPUs hacia los ASICs diseñados específicamente, pero con restricciones más estrictas porque los modelos y las recetas de precisión siguen evolucionando.

Aquí hay una comparación entre Qwen3:30b y GPT-OSS:20b centrada en el seguimiento de instrucciones y parámetros de rendimiento, especificaciones y velocidad.

Problemas de salida estructurada de Ollama GPT-OSS

Los modelos GPT-OSS de Ollama tienen problemas recurrentes al manejar salidas estructuradas, especialmente cuando se usan con marcos como LangChain, OpenAI SDK, vllm y otros.

Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1

Aquí estoy comparando cómo mucho VRAM la nueva versión de Ollama asigna al modelo con la versión anterior de Ollama. La nueva versión es peor.

Rendimiento de LLM y canales PCIe: Consideraciones clave

¿Cómo afectan los canales PCIe al rendimiento de los LLM?? Dependiendo de la tarea. Para el entrenamiento y la inferencia con múltiples GPUs, la caída de rendimiento es significativa.

Prueba: Cómo Ollama está utilizando el rendimiento de la CPU de Intel y los núcleos eficientes

Tengo una teoría que quiero probar: ¿utilizar todos los núcleos en un procesador Intel aumentaría la velocidad de los LLMs? Me molesta que el nuevo modelo gemma3 de 27 bits (gemma3:27b, 17 GB en ollama) no entre en los 16 GB de VRAM de mi GPU, y se ejecute parcialmente en el CPU.

Comparando la idoneidad de las GPU de NVidia para la IA

En medio del caos del mundo moderno aquí estoy comparando especificaciones técnicas de diferentes tarjetas adecuadas para tareas de IA (Deep Learning, Detección de Objetos y LLMs). Aunque todas son increíblemente caras.

Cómo Ollama maneja solicitudes en paralelo

Cuando el servidor Ollama recibe dos solicitudes al mismo tiempo, su comportamiento depende de su configuración y de los recursos del sistema disponibles.

No hace mucho tiempo se lanzó. Vamos a ponernos al día y pruebe cómo se comporta Mistral Small en comparación con otros LLMs.

Recientemente hemos visto la liberación de varios nuevos LLMs. Tiempo emocionante. Vamos a probar y ver cómo se desempeñan al detectar falacias lógicas.

Comparando las capacidades de resumen de los LLM

Prueba de cómo se comportan los modelos con diferentes números de parámetros y cuantización.

Comparando la velocidad de predicción de varias versiones de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) en CPU y GPU.

LLM Performance

Benchmarks de LLM con 16 GB de VRAM usando llama.cpp (velocidad y contexto)

Comparando el rendimiento de los LLMs en Ollama en una GPU con 16 GB de VRAM

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación del rendimiento de Ollama

ASICs para LLM y chips especializados de inferencia (por qué son importantes)

Comparación: Qwen3:30b vs GPT-OSS:20b

Problemas de salida estructurada de Ollama GPT-OSS

Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1

Rendimiento de LLM y canales PCIe: Consideraciones clave

Prueba: Cómo Ollama está utilizando el rendimiento de la CPU de Intel y los núcleos eficientes

Comparando la idoneidad de las GPU de NVidia para la IA

Cómo Ollama maneja solicitudes en paralelo

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 y Phi - Prueba de modelos de lenguaje grande

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Comparando las capacidades de resumen de los LLM

Prueba de velocidad de modelos de lenguaje grandes