LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)
Token-Geschwindigkeit von llama.cpp auf 16 GB VRAM (Tabellen).
Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für den Selbst-Hosting-Einsatz aus.