LLM Hosting

LocalAI QuickStart: Ejecute LLM compatibles con OpenAI localmente

LocalAI es un servidor de inferencia autohospedado y local-first diseñado para comportarse como una API de OpenAI de reemplazo directo para ejecutar cargas de trabajo de IA en tu propio hardware (portátil, estación de trabajo o servidor local).

Quickstart de llama.cpp con CLI y servidor

Sigo volviendo a llama.cpp para la inferencia local, ya que me da el control que Ollama y otros abstraen, y simplemente funciona. Fácil de ejecutar modelos GGUF de forma interactiva con llama-cli o exponer una API HTTP OpenAI-compatible con llama-server.

Autohospedaje de LLMs mantiene los datos, modelos e inferencia bajo su control: un camino práctico hacia la soberanía en IA para equipos, empresas y naciones.

Open WebUI: Interfaz de LLM autohospedada

Open WebUI es una poderosa, extensible y rica en características interfaz web autogestionada para interactuar con modelos de lenguaje grandes.

vLLM es un motor de inferencia y servicio de alto rendimiento y eficiente en memoria para Modelos de Lenguaje Grandes (LLM), desarrollado por el Laboratorio de Computación Sky de la Universidad de California, Berkeley.

Elegir el LLM adecuado para Cognee: Configuración local de Ollama

Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware. Cognee destaca con modelos grandes de baja alucinación (32B+) a través de Ollama pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

Ollama vs vLLM vs LM Studio: ¿La mejor forma de ejecutar LLMs localmente en 2026?

Ejecutar LLMs localmente es ahora práctico para desarrolladores, startups e incluso equipos empresariales.
Pero elegir la herramienta adecuada — Ollama, vLLM, LM Studio, LocalAI u otras — depende de tus objetivos:

Guía de configuración del tamaño de contexto de Docker Model Runner

Configuración de tamaños de contexto en Docker Model Runner es más compleja de lo que debería ser.

Añadir soporte para GPU de NVIDIA al ejecutor de modelos de Docker

Docker Model Runner es la herramienta oficial de Docker para ejecutar modelos de IA localmente, pero habilitar la aceleración de GPU de NVidia en Docker Model Runner requiere una configuración específica.

Docker Model Runner Cheatsheet: Comandos y ejemplos

Docker Model Runner (DMR) es la solución oficial de Docker para ejecutar modelos de IA localmente, introducida en abril de 2025. Esta guía rápida proporciona una referencia rápida para todos los comandos esenciales, configuraciones y mejores prácticas.

Docker Model Runner vs Ollama (2026): ¿Cuál es mejor para LLMs locales?

Correr modelos de lenguaje grandes (LLMs) localmente ha ganado popularidad cada vez mayor por razones de privacidad, control de costos y capacidades fuera de línea. El paisaje cambió significativamente en abril de 2025 cuando Docker introdujo Docker Model Runner (DMR), su solución oficial para la implementación de modelos de IA.

Clientes de Go para Ollama: comparación de SDK y ejemplos de Qwen3/GPT-OSS

Este guía proporciona una visión general completa de los disponibles SDKs de Go para Ollama y compara sus conjuntos de características.

Integrar Ollama con Python: ejemplos de API REST y cliente en Python

En este post, exploraremos dos formas de conectar tu aplicación Python a Ollama: 1. A través de HTTP REST API; 2. A través de la biblioteca oficial de Python de Ollama.

Enshittificación de Ollama - Las primeras señales

Ollama ha pasado rápidamente a ser una de las herramientas más populares para ejecutar modelos de lenguaje grande (LLM) en local.
Su CLI simple y su gestión de modelos optimizada han convertido a Ollama en una opción preferida para desarrolladores que desean trabajar con modelos de IA fuera de la nube.

Interfaz de chat para instancias locales de Ollama

Locally hosted Ollama permite ejecutar modelos de lenguaje grandes en tu propia máquina, pero usarlo desde la línea de comandos no es muy amigable para el usuario. Aquí hay varios proyectos de código abierto que ofrecen interfaces estilo ChatGPT que se conectan a un Ollama local.

Comparación de la calidad de la traducción de páginas en Hugo - LLMs en Ollama

En este test estoy comparando cómo diferentes LLMs alojados en Ollama traducen una página Hugo en inglés al alemán.