Benchmarks de LLM com 16 GB de VRAM usando llama.cpp (velocidade e contexto)
Velocidade de tokens do llama.cpp em 16 GB de VRAM (tabelas).
Aqui comparo a velocidade de vários LLMs executados em uma GPU com 16 GB de VRAM e escolho o melhor para auto-hospedagem.