LLM

Ga naar microservices voor AI/ML-orchestratie

Ga naar microservices voor AI/ML-orchestratie

Maak robuuste AI/ML-pijplijnen met Go-microservices

Aan de slag met AI- en ML-werkbelastingen die steeds complexer worden, is het belangrijk dat er robuuste orkestratiesystemen zijn. De eenvoud, prestaties en gelijktijdigheid van Go maken het ideaal om de orkestratielag van ML-pijplijnen te bouwen, zelfs als de modellen zelf in Python zijn geschreven.

FLUX.1-dev GGUF Q8 uitvoeren in Python

FLUX.1-dev GGUF Q8 uitvoeren in Python

Versnel FLUX.1-dev met GGUF-quantisatie

FLUX.1-dev is een krachtig tekst-naar-afbeelding model dat indrukwekkende resultaten produceert, maar zijn geheugengebruik van 24GB+ maakt het lastig om te draaien op veel systemen. GGUF-quantisatie van FLUX.1-dev biedt een oplossing, met een verminderings van het geheugengebruik met ongeveer 50% terwijl de afbeeldingskwaliteit goed behouden blijft.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

GPT-OSS 120b benchmarks op drie AI-platforms

Ik vond enkele interessante prestatietests van GPT-OSS 120b die draaien op Ollama over drie verschillende platforms: NVIDIA DGX Spark, Mac Studio en RTX 4080. De GPT-OSS 120b model uit de Ollama bibliotheek weegt 65 GB, wat betekent dat het niet past in de 16 GB VRAM van een RTX 4080 (of de nieuwere RTX 5080).