Ollama

Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65GB, lo que significa que no cabe en los 16GB de VRAM de un RTX 4080 (ni en el más reciente RTX 5080).

Docker Model Runner vs Ollama (2026): ¿Cuál es mejor para LLMs locales?

Correr modelos de lenguaje grandes (LLMs) localmente ha ganado popularidad cada vez mayor por razones de privacidad, control de costos y capacidades fuera de línea. El paisaje cambió significativamente en abril de 2025 cuando Docker introdujo Docker Model Runner (DMR), su solución oficial para la implementación de modelos de IA.

Clientes de Go para Ollama: comparación de SDK y ejemplos de Qwen3/GPT-OSS

Este guía proporciona una visión general completa de los disponibles SDKs de Go para Ollama y compara sus conjuntos de características.

Aquí hay una comparación entre Qwen3:30b y GPT-OSS:20b centrada en el seguimiento de instrucciones y parámetros de rendimiento, especificaciones y velocidad.

Integrar Ollama con Python: ejemplos de API REST y cliente en Python

En este post, exploraremos dos formas de conectar tu aplicación Python a Ollama: 1. A través de HTTP REST API; 2. A través de la biblioteca oficial de Python de Ollama.

Problemas de salida estructurada de Ollama GPT-OSS

Los modelos GPT-OSS de Ollama tienen problemas recurrentes al manejar salidas estructuradas, especialmente cuando se usan con marcos como LangChain, OpenAI SDK, vllm y otros.

Limitar LLMs con salida estructurada: Ollama, Qwen3 & Python o Go

Modelos de Lenguaje Grande (LLMs) son poderosos, pero en producción raramente queremos párrafos libres. En su lugar, queremos datos predecibles: atributos, hechos u objetos estructurados que puedas alimentar en una aplicación. Eso es Salida Estructurada de LLM.

Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1

Aquí estoy comparando cómo mucho VRAM la nueva versión de Ollama asigna al modelo con la versión anterior de Ollama. La nueva versión es peor.

Enshittificación de Ollama - Las primeras señales

Ollama ha pasado rápidamente a ser una de las herramientas más populares para ejecutar modelos de lenguaje grande (LLM) en local.
Su CLI simple y su gestión de modelos optimizada han convertido a Ollama en una opción preferida para desarrolladores que desean trabajar con modelos de IA fuera de la nube.

Interfaz de chat para instancias locales de Ollama

Locally hosted Ollama permite ejecutar modelos de lenguaje grandes en tu propia máquina, pero usarlo desde la línea de comandos no es muy amigable para el usuario. Aquí hay varios proyectos de código abierto que ofrecen interfaces estilo ChatGPT que se conectan a un Ollama local.

Reordenar documentos con Ollama y el modelo Qwen3 Reranker - en Go

Dado que el Ollama estándar no tiene una API de rerank directa, tendrás que implementar reranking usando Qwen3 Reranker en GO generando embeddings para pares de consulta y documentos y calificándolos.

Comparación de la calidad de la traducción de páginas en Hugo - LLMs en Ollama

En este test estoy comparando cómo diferentes LLMs alojados en Ollama traducen una página Hugo en inglés al alemán.

Reclasificación de textos con Ollama y Qwen3 Embedding LLM - en Go

Este pequeño Ejemplo de código Go para reranking llama a Ollama para generar embeddings para la consulta y para cada documento candidato, luego ordenando de forma descendente por similitud coseno.

Modelos de incrustación y reordenación de Qwen3 en Ollama: rendimiento de vanguardia

Los modelos de incrustación y reordenamiento de Qwen3 son las últimas versiones lanzadas en la familia Qwen, especialmente diseñados para tareas avanzadas de incrustación de texto, recuperación y reordenamiento.

Rendimiento de LLM y canales PCIe: Consideraciones clave

¿Cómo afectan los canales PCIe al rendimiento de los LLM?? Dependiendo de la tarea. Para el entrenamiento y la inferencia con múltiples GPUs, la caída de rendimiento es significativa.

Convierte contenido HTML a Markdown utilizando LLM y Ollama

En la biblioteca de modelos de Ollama hay modelos que pueden convertir contenido HTML a Markdown, lo cual es útil para tareas de conversión de contenido. Esta guía forma parte de nuestro Herramientas de Documentación en 2026: Markdown, LaTeX, PDF y Flujos de Trabajo de Impresión hub.

Ollama

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación del rendimiento de Ollama

Docker Model Runner vs Ollama (2026): ¿Cuál es mejor para LLMs locales?

Clientes de Go para Ollama: comparación de SDK y ejemplos de Qwen3/GPT-OSS

Comparación: Qwen3:30b vs GPT-OSS:20b

Integrar Ollama con Python: ejemplos de API REST y cliente en Python

Problemas de salida estructurada de Ollama GPT-OSS

Limitar LLMs con salida estructurada: Ollama, Qwen3 & Python o Go

Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1

Enshittificación de Ollama - Las primeras señales

Interfaz de chat para instancias locales de Ollama

Reordenar documentos con Ollama y el modelo Qwen3 Reranker - en Go

Comparación de la calidad de la traducción de páginas en Hugo - LLMs en Ollama

Reclasificación de textos con Ollama y Qwen3 Embedding LLM - en Go

Modelos de incrustación y reordenación de Qwen3 en Ollama: rendimiento de vanguardia

Rendimiento de LLM y canales PCIe: Consideraciones clave

Convierte contenido HTML a Markdown utilizando LLM y Ollama