AI - Page 3 - Rost Glukhov | Sitio personal y blog técnico

Usando la API de búsqueda web de Ollama en Go

La API de búsqueda web de Ollama le permite mejorar los LLM locales con información en tiempo real de la web. Esta guía le muestra cómo implementar capacidades de búsqueda web en Go, desde llamadas simples a la API hasta agentes de búsqueda completos.

Aumento del precio de la RAM: hasta un 619% en 2025

El mercado de la memoria está experimentando una volatilidad de precios sin precedentes a finales de 2025, con los precios de la RAM aumentando drásticamente en todos los segmentos.

Ollama vs vLLM vs LM Studio: ¿La mejor forma de ejecutar LLMs localmente en 2026?

Ejecutar LLMs localmente es ahora práctico para desarrolladores, startups e incluso equipos empresariales.
Pero elegir la herramienta adecuada — Ollama, vLLM, LM Studio, LocalAI u otras — depende de tus objetivos:

Go Microservicios para la Orquestación de IA/ML

A medida que las cargas de trabajo de IA y ML se vuelven cada vez más complejas, la necesidad de sistemas de orquestación robustos se ha vuelto más urgente. La simplicidad, el rendimiento y la concurrencia de Go lo convierten en una opción ideal para construir la capa de orquestación de pipelines de ML, incluso cuando los modelos mismos se escriben en Python.

Incrustaciones Multimodales: Conectando Modalidades de IA

Embeddings cruzales representan un avance significativo en inteligencia artificial, permitiendo entender y razonar entre diferentes tipos de datos dentro de un espacio de representación unificado.

Infraestructura de IA en hardware de consumo

La democratización de la IA está aquí. Con LLMs de código abierto como Llama 3, Mixtral y Qwen ahora rivales de modelos propietarios, los equipos pueden construir una poderosa infraestructura de IA usando hardware de consumo - reduciendo costos mientras se mantiene el control total sobre la privacidad de los datos y la implementación.

Advanced RAG: LongRAG, Self-RAG y GraphRAG Explicados

Generación Aumentada por Recuperación (RAG) ha evolucionado mucho más allá de la búsqueda simple de similitud de vectores. LongRAG, Self-RAG y GraphRAG representan el estado del arte de estas capacidades.

FLUX.1-dev es un modelo poderoso de generación de imágenes a partir de texto que produce resultados asombrosos, pero su requisito de memoria de 24GB+ hace que sea difícil de ejecutar en muchos sistemas. GGUF quantization of FLUX.1-dev ofrece una solución, reduciendo el uso de memoria en aproximadamente un 50% mientras se mantiene una excelente calidad de imagen.

Guía de configuración del tamaño de contexto de Docker Model Runner

Configuración de tamaños de contexto en Docker Model Runner es más compleja de lo que debería ser.

FLUX.1-Kontext-dev: Modelo de IA para aumento de imágenes

Black Forest Labs ha lanzado FLUX.1-Kontext-dev, un avanzado modelo de inteligencia artificial de imagen a imagen que mejora imágenes existentes mediante instrucciones de texto.

Añadir soporte para GPU de NVIDIA al ejecutor de modelos de Docker

Docker Model Runner es la herramienta oficial de Docker para ejecutar modelos de IA localmente, pero habilitar la aceleración de GPU de NVidia en Docker Model Runner requiere una configuración específica.

Reduzca los costos de LLM: Estrategias de optimización de tokens

La optimización de tokens es la habilidad crítica que separa las aplicaciones de LLM eficientes económicamente de experimentos que consumen presupuesto.

Autohospedaje de Immich: Nube de fotos privada

Immich es una solución revolucionaria de código abierto y autohospedada para la gestión de fotos y videos que te da el control total sobre tus recuerdos. Con características que rivalizan con Google Photos, incluyendo reconocimiento facial impulsado por inteligencia artificial, búsqueda inteligente y copia de seguridad automática desde dispositivos móviles, todo mientras mantienes tus datos privados y seguros en tu propio servidor.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación del rendimiento de Ollama

Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65GB, lo que significa que no cabe en los 16GB de VRAM de un RTX 4080 (ni en el más reciente RTX 5080).

Construyendo servidores MCP en Python: Guía de búsqueda en la web y raspado

El Protocolo de Contexto del Modelo (MCP) está revolucionando la forma en que los asistentes de IA interactúan con fuentes de datos externas y herramientas. En esta guía, exploraremos cómo construir servidores MCP en Python, con ejemplos centrados en las capacidades de búsqueda en la web y raspado.

Docker Model Runner Cheatsheet: Comandos y ejemplos

Docker Model Runner (DMR) es la solución oficial de Docker para ejecutar modelos de IA localmente, introducida en abril de 2025. Esta guía rápida proporciona una referencia rápida para todos los comandos esenciales, configuraciones y mejores prácticas.