LLM-benchmarks met 16 GB VRAM in llama.cpp (snelheid en context)
Snelheid van llama.cpp-tokens bij 16 GB VRAM (tabellen).
Hier vergelijk ik de snelheid van verschillende LLMs die draaien op een GPU met 16 GB VRAM en kies ik de beste optie voor self-hosting.