LLM - Page 4 - Rost Glukhov | Persoonlijke website en technische blog

Workflowtoepassingen implementeren met Temporal in Go: een compleet gids

Temporal is een open-source, enterprise-klasse workflow engine die ontwikkelaars in staat stelt om duurzame, schaalbare en fouttolerante workflow toepassingen te bouwen met behulp van bekende programmeertalen zoals Go.

Observability voor LLM-systemen: Metrieken, Traces, Logs en Testen in Productie

LLM-systemen falen op manieren die traditionele API-bewaking niet kan oppassen — wachtrijen vullen zich stil, GPU-geheugen wordt lang voor CPU-busigheid volledig gebruikt, en latentie explodeert op het batchlaag-niveau in plaats van op het applicatie-laag-niveau. Deze gids behandelt een eind-afwerking observabiliteitsstrategie voor LLM-inferentie en LLM-toepassingen: wat je moet meten, hoe je het moet instrumenteren met Prometheus, OpenTelemetry en Grafana, en hoe je de telemetriepijplijn op schaal moet implementeren.

Handleiding voor Retrieval-Augmented Generation (RAG): architectuur, implementatie en gids voor productie

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Observability in Productie: Monitoring, Metrieken, Prometheus & Grafana Gids (2026)

Observability vormt de basis van betrouwbare productie-systemen.

Zonder metrische gegevens, dashboards en alerting zullen Kubernetes-cluster’s afwijken, AI-workloads in stilte falen en zullen regressies in latentie onopgemerkt blijven totdat gebruikers klagen.

LLM-hosting in 2026: lokale, zelfgehoste en cloud-infrastructuur vergeleken

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

LLM-prestaties in 2026: benchmarks, knelpunten en optimalisatie

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Eigen beheer van LLM's en AI-soevereiniteit

Zelfhosting van LLMs houdt data, modellen en inferentie onder uw controle—een praktische weg naar AI-soevereiniteit voor teams, bedrijven en naties.

Vergelijking van de prestaties van LLM’s op Ollama op een GPU met 16 GB VRAM

Het lokaal draaien van grote taalmodellen geeft je privacy, offline mogelijkheden en geen API-kosten. Deze benchmark onthult precies wat je kunt verwachten van 14 populaire LLM’s op Ollama op een RTX 4080.

Top 17 trending Python-projecten op GitHub

Het Python-ecosysteem wordt deze maand gedomineerd door Claude Skills en tooling voor AI-agents. Deze analyse bespreekt de top trending Python-repositories op GitHub.

De Rust-ecosysteem explodeert met innovatieve projecten, vooral in AI-coderings-tools en terminaltoepassingen. Deze overzicht analyseert de top trending Rust-repositories op GitHub deze maand.

Top 19 populaire Go-projects op GitHub - januari 2026

De Go-ecosysteem blijft bloeien met innovatieve projecten die zich uitstrekken over AI-tools, zelfgehoste toepassingen en ontwikkelaarsinfrastructuur. Deze overzicht analyseert de top trending Go-repositories op GitHub deze maand.

Open WebUI is een krachtig, uitbreidbaar en functierijk zelfgehost webinterface voor het communiceren met grote taalmodellen.

vLLM is een inference- en serving-engine met hoge doorvoer en geheugenefficiëntie voor Large Language Models (LLM’s), ontwikkeld door het Sky Computing Lab van UC Berkeley.

Prijzen voor DGX Spark AU: €6.249–€7.999 bij grote retailers

De NVIDIA DGX Spark (GB10 Grace Blackwell) is nu in Australië beschikbaar bij grote PC-handelaars met lokale voorraad. Als u de welvaartsprijzen en beschikbaarheid van de DGX Spark wereldwijd volgt, bent u misschien geïnteresseerd om te weten dat de prijzen in Australië variëren van $6.249 tot $7.999 AUD, afhankelijk van de opslagconfiguratie en de handelaar.

Detectie van AI Slop: Technieken & Waarschuwingstekens

De verspreiding van AI-generatieerde inhoud heeft een nieuw probleem geschapen: het onderscheiden van echte menselijke schrijving van “AI slop” - laagwaardige, massaproduceerde synthetische tekst.

Self-Hosting Cognee: Kiezen voor LLM op Ollama

Cognee is een Python-framework voor het bouwen van kennisgrafieken uit documenten met behulp van LLMs. Werkt het echter met zelfgehoste modellen?