Self-Hosting

Descargar todos los modelos del enrutador de llama.cpp sin reiniciar

Modo router de llama.cpp es uno de los cambios más útiles en llama-server en años. Finalmente ofrece a los operadores de LLM locales una experiencia de gestión de modelos cercana a la que las personas esperan de Ollama, manteniendo al mismo tiempo el rendimiento bruto y el control a bajo nivel que hacen que llama.cpp valga la pena usarlo en primer lugar.

Referencia de parámetros de inferencia de LLMs agénticos para Qwen y Gemma

Esta página es una referencia práctica para la afinación de inferencia de LLMs agentivos (temperatura, top_p, top_k, penalizaciones y cómo interactúan en flujos de trabajo multietapa y con uso intensivo de herramientas).

Control de voz de Hermes desde tu teléfono

Ya puedes chatear con Hermes Agent desde tu teléfono usando texto. Ahora quieres hablar con él directamente y recibir respuestas habladas. Eso suele ser la mejor opción, especialmente si ya usas Hermes como asistente autohospedado persistente. Escribir instrucciones largas en una pantalla pequeña es lento y propenso a errores.

Guía práctica de NemoClaw para operaciones seguras de OpenClaw en 2026

La mayoría de las pilas de agentes de IA siguen tratando la seguridad como una corrección posterior a la demostración. NemoClaw parte de la suposición opuesta y establece el aislamiento, la política y el enrutamiento como valores predeterminados desde el primer día.

Gestión del conocimiento en 2026: herramientas de PKM, wikis autoalojadas y sistemas digitales

La gestión del conocimiento personal abarca Obsidian, Logseq, DokuWiki, Zettelkasten y PARA: la elección correcta depende de si desea un grafo de notas local, un wiki autoalojado o un flujo de trabajo basado en un outliner.

Claude, OpenClaw y el fin de la tarifa plana para agentes

La puerta trasera silenciosa que impulsó una ola de experimentación con agentes ahora está cerrada.

Inicio rápido de Vane (Perplexica 2.0) con Ollama y llama.cpp

Vane es una de las entradas más pragmáticas en el espacio de “búsqueda de IA con citas”: un motor de respuestas autoalojado que combina la recuperación web en vivo con LLM locales o en la nube, manteniendo toda la pila bajo tu control.

TGI - Inferencia de Generación de Texto - Instalación, Configuración y Solución de Problemas

Text Generation Inference (TGI) tiene una energía muy específica. No es el último en llegar en la calle de la inferencia, pero es el que ya aprendió cómo se rompen las cosas en producción -

Benchmarks de LLM con 16 GB de VRAM con llama.cpp (velocidad y contexto)

Aquí comparo la velocidad de varios LLMs (modelos de lenguaje grande) ejecutándose en una GPU con 16 GB de VRAM, y elijo el mejor para autoalojamiento.

Precio y disponibilidad de la RTX 5090 en Australia para marzo de 2026: la realidad

Australia tiene existencias de la RTX 5090. Escasamente. Y si encuentras una, pagarás un sobreprecio que parece desconectado de la realidad.

Acceso remoto a Ollama mediante Tailscale o WireGuard, sin puertos públicos.

Ollama funciona mejor cuando se trata como un demonio local: la CLI y sus aplicaciones se comunican con una API HTTP de bucle local, y el resto de la red nunca descubre su existencia.

Ollama en Docker Compose con GPU y almacenamiento persistente de modelos

Ollama funciona muy bien en hardware físico (bare metal). Se vuelve aún más interesante cuando lo tratas como un servicio: un punto de conexión estable, versiones fijas, almacenamiento persistente y una GPU que está disponible o no lo está.

Ollama detrás de un proxy inverso con Caddy o Nginx para streaming HTTPS

Ejecutar Ollama detrás de un proxy inverso es la forma más sencilla de obtener HTTPS, control de acceso opcional y un comportamiento de transmisión predecible.

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).

IndexNow explicado: notifique a los motores de búsqueda cuando publique.

Los sitios estáticos y los blogs cambian cada vez que realizas una implementación. Los motores de búsqueda que admiten IndexNow pueden enterarse de esos cambios sin tener que esperar al próximo rastreo ciego.

Inicio rápido de SGLang: instalar, configurar y servir modelos LLM a través de la API de OpenAI.

SGLang es un marco de servicio de alto rendimiento para grandes modelos de lenguaje y modelos multimodales, diseñado para ofrecer inferencia de baja latencia y alto rendimiento en todo, desde una sola GPU hasta clústeres distribuidos.