Chunking es el hiperparámetro más subestimado en Generación Aumentada por Recuperación (RAG):
silenciosamente determina lo que ve tu LLM,
cuán costosa se vuelve la ingesta,
y cuánto del contexto de la LLM consumes por respuesta.
Controla los datos y los modelos con LLMs autohospedados
Autohospedaje de LLMs mantiene los datos, modelos e inferencia bajo su control: un camino práctico hacia la soberanía en IA para equipos, empresas y naciones.
Prueba de velocidad de LLM en RTX 4080 con 16 GB de VRAM
Ejecutar modelos de lenguaje grandes localmente te brinda privacidad, capacidad para trabajar sin conexión y cero costos de API.
Este benchmark revela exactamente lo que se puede esperar de 14 modelos populares
LLMs en Ollama en una RTX 4080.
Verificación de precios de GPU y RAM en enero de 2025
Hoy nos estamos enfocando en las GPUs de consumo de alto nivel y módulos de RAM.
Específicamente, me estoy enfocando en
precios de RTX-5080 y RTX-5090, y 32GB (2x16GB) DDR5 6000.
Después de instalar automáticamente un nuevo núcleo, Ubuntu 24.04 ha perdido la conexión de red ethernet. Este problema frustrante ocurrió de nuevo para mí, así que estoy documentando la solución aquí para ayudar a otros que enfrenten el mismo problema.
Con esta volatilidad loca de los precios de la RAM, para formar y tener una mejor imagen, primero vamos a rastrear el precio de la RAM en Australia nosotros mismos.
Los precios de la RAM aumentan un 163-619% debido a la demanda de IA que agota el suministro
El mercado de la memoria está experimentando una volatilidad de precios sin precedentes a finales de 2025, con los precios de la RAM aumentando drásticamente en todos los segmentos.
Precios de GPU para consumidor adecuadas para IA - RTX 5080 y RTX 5090
Vamos a comparar precios para tarjetas gráficas de alto nivel para consumidores, que son adecuadas para LLMs en particular y la IA en general.
Específicamente, me estoy enfocando en precios de RTX-5080 y RTX-5090.
Implemente inteligencia artificial empresarial en hardware de presupuesto con modelos abiertos
La democratización de la IA está aquí.
Con LLMs de código abierto como Llama 3, Mixtral y Qwen ahora rivales de modelos propietarios, los equipos pueden construir una poderosa infraestructura de IA usando hardware de consumo - reduciendo costos mientras se mantiene el control total sobre la privacidad de los datos y la implementación.
Resultados de benchmarks de GPT-OSS 120b en tres plataformas de IA
Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65GB, lo que significa que no cabe en los 16GB de VRAM de un RTX 4080 (ni en el más reciente RTX 5080).
Referencia rápida para comandos de Docker Model Runner
Docker Model Runner (DMR) es la solución oficial de Docker para ejecutar modelos de IA localmente, introducida en abril de 2025. Esta guía rápida proporciona una referencia rápida para todos los comandos esenciales, configuraciones y mejores prácticas.