LLM Performance

ASICs para LLM y chips especializados de inferencia (por qué son importantes)

ASICs para LLM y chips especializados de inferencia (por qué son importantes)

Los ASIC y los silicios personalizados impulsan la velocidad y la eficiencia de la inferencia de LLM.

El futuro de la IA no se trata solo de modelos más inteligentes. También se trata de silicio que se adapte a la forma en que esos modelos se sirven realmente. El hardware especializado para inferencia de LLM sigue una trayectoria que recuerda al cambio de la minería de Bitcoin desde las GPUs hacia los ASICs diseñados específicamente, pero con restricciones más estrictas porque los modelos y las recetas de precisión siguen evolucionando.

Cómo Ollama maneja solicitudes en paralelo

Cómo Ollama maneja solicitudes en paralelo

Configurando ollama para la ejecución de solicitudes en paralelo.

Cuando el servidor Ollama recibe dos solicitudes al mismo tiempo, su comportamiento depende de su configuración y de los recursos del sistema disponibles.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Prueba de detección de falacias lógicas

Recientemente hemos visto la liberación de varios nuevos LLMs. Tiempo emocionante. Vamos a probar y ver cómo se desempeñan al detectar falacias lógicas.

Prueba de velocidad de modelos de lenguaje grandes

Prueba de velocidad de modelos de lenguaje grandes

Probemos la velocidad de los LLM en GPU frente a CPU

Comparando la velocidad de predicción de varias versiones de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) en CPU y GPU.