Ollama

Vane es una de las entradas más pragmáticas en el espacio de “búsqueda de IA con citas”: un motor de respuestas autoalojado que combina la recuperación web en vivo con LLM locales o en la nube, manteniendo toda la pila bajo tu control.

Acceso remoto a Ollama mediante Tailscale o WireGuard, sin puertos públicos.

Ollama funciona mejor cuando se trata como un demonio local: la CLI y sus aplicaciones se comunican con una API HTTP de bucle local, y el resto de la red nunca descubre su existencia.

Ollama en Docker Compose con GPU y almacenamiento persistente de modelos

Ollama funciona muy bien en hardware físico (bare metal). Se vuelve aún más interesante cuando lo tratas como un servicio: un punto de conexión estable, versiones fijas, almacenamiento persistente y una GPU que está disponible o no lo está.

Ollama detrás de un proxy inverso con Caddy o Nginx para streaming HTTPS

Ejecutar Ollama detrás de un proxy inverso es la forma más sencilla de obtener HTTPS, control de acceso opcional y un comportamiento de transmisión predecible.

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).

Los mejores LLMs para OpenCode: de Gemma 4 a Qwen 3.6, probados localmente

He probado cómo funciona OpenCode con varios LLM alojados localmente en Ollama y llama.cpp, y para comparar, he añadido algunos modelos gratuitos de OpenCode Zen.

OpenClaw: Inicio rápido. Instalación con Docker (Ollama con GPU o Claude con CPU)

OpenClaw es un asistente de IA autoalojado diseñado para ejecutarse con entornos de ejecución de LLM locales como Ollama o con modelos basados en la nube como Claude Sonnet.

Alojamiento de LLMs en 2026: Comparativa de infraestructuras locales, autoalojadas y en la nube

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

Rendimiento de los LLM en 2026: Benchmarks, Cuellos de Botella y Optimización

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Autoalojamiento de LLM y soberanía de la IA

El autoalojamiento de modelos de lenguaje grandes (LLM) mantiene los datos, los modelos y la inferencia bajo su control: una vía práctica hacia la soberanía de la IA para equipos, empresas y naciones.

Comparación del rendimiento de los LLMs en Ollama con GPU de 16 GB de VRAM

Ejecutar modelos de lenguaje grandes (LLMs) de forma local te ofrece privacidad, capacidad de funcionamiento sin conexión y cero costos de API. Este análisis revela exactamente qué se puede esperar de 14 LLMs populares en Ollama con una RTX 4080.

Top 19 proyectos de Go trending en GitHub - Enero 2026

El ecosistema de Go continúa prosperando con proyectos innovadores que abarcan herramientas de IA, aplicaciones autohospedadas y infraestructura para desarrolladores. Este análisis examina los repositorios de Go más trending en GitHub de este mes.

Open WebUI: Interfaz de LLM autohospedada

Open WebUI es una poderosa, extensible y rica en características interfaz web autogestionada para interactuar con modelos de lenguaje grandes.

Precios de DGX Spark AU: $6.249-$7.999 en principales minoristas

El NVIDIA DGX Spark (GB10 Grace Blackwell) ya está disponible en Australia en los principales minoristas de PC con stock local. Si has estado siguiendo los precios y disponibilidad globales del DGX Spark, te interesará saber que los precios en Australia oscilan entre $6.249 y $7.999 AUD, dependiendo de la configuración de almacenamiento y del minorista.

Autohospedaje de Cognee: Elegir LLM en Ollama

Cognee es un marco de Python para construir grafos de conocimiento a partir de documentos utilizando LLMs. ¿Pero funciona con modelos autohospedados?

BAML vs Instructor: Salidas estructuradas de LLM

Al trabajar con modelos de lenguaje grandes (LLM) en producción, obtener salidas estructuradas y seguras en cuanto a tipos es fundamental. Dos marcos de trabajo populares, BAML e Instructor, adoptan enfoques diferentes para resolver este problema.