LLM-Leistung 2026: Benchmarks, Engpässe und Optimierung
LLM-Leistung hängt nicht nur von einer leistungsstarken GPU ab. Inferenzgeschwindigkeit, Latenz und Kosteneffizienz hängen von Beschränkungen über den gesamten Stack hinweg ab:
- Modellgröße und Quantisierung
- VRAM-Kapazität und Speicherdurchsatz
- Kontextlänge und Prompt-Größe
- Laufzeitscheduling und Batching
- CPU-Kernauslastung
- Systemtopologie (PCIe-Lanes, NUMA usw.)
Dieser Hub bietet tiefergehende Analysen darüber, wie sich große Sprachmodelle unter echten Arbeitslasten verhalten – und wie man sie optimieren kann.
Was LLM-Leistung wirklich bedeutet
Leistung ist multidimensional.
Durchsatz vs. Latenz
- Durchsatz = Token pro Sekunde über viele Anfragen hinweg
- Latenz = Zeit bis zum ersten Token + Gesamtantwortzeit
Die meisten realen Systeme müssen beide Aspekte ausbalancieren.

Die Reihenfolge der Engpässe
In der Praxis treten Engpässe in der Regel in dieser Reihenfolge auf:
- VRAM-Kapazität
- Speicherdurchsatz
- Laufzeitscheduling
- Größe des Kontextfensters
- CPU-Overhead
Zu verstehen, auf welche Beschränkung Sie stoßen, ist wichtiger als das „Upgrade der Hardware".
Ollama-Laufzeitleistung
Ollama wird weit verbreitet für lokale Inferenz eingesetzt. Sein Verhalten unter Last ist kritisch zu verstehen.
CPU-Kern-Scheduling
Parallele Anfragebehandlung
Speicherallokationsverhalten
Probleme bei strukturierten Ausgaben zur Laufzeit
Hardwarebeschränkungen, die zählen
Nicht alle Leistungsprobleme sind GPU-Rechenprobleme.
PCIe- und Topologieeffekte
Trends bei spezialisierter Rechenleistung
Benchmarks und Modellvergleiche
Benchmarks sollten eine Entscheidungsfrage beantworten.
Vergleich von Hardware-Plattformen
Real-World-Tests mit 16 GB VRAM
Consumer-GPUs mit 16 GB VRAM sind ein häufiger Wendepunkt für die Modellgröße, die Größe des KV-Cache und ob Schichten auf dem Gerät verbleiben. Die folgenden Beiträge basieren auf derselben Hardwareklasse, aber unterschiedlichen Stacks – Ollamas Laufzeit im Vergleich zu llama.cpp mit expliziten Kontextscans –, sodass Sie Effekte von „Scheduler und Paketierung" von reinem Durchsatz und VRAM-Reserven trennen können.
- Beste LLM für Ollama auf 16 GB VRAM GPU auswählen
- 16 GB VRAM LLM-Benchmarks mit llama.cpp (Geschwindigkeit und Kontext)
Modellgeschwindigkeit und Qualitätsbenchmarks
- Qwen3 30B vs. GPT-OSS 20B
- Gemma2 vs. Qwen2 vs. Mistral Nemo 12B
- Mistral Small vs. Gemma2 vs. Qwen2.5 vs. Mistral Nemo
Belastungstests für Fähigkeiten
- Zusammenfassungsfähigkeiten von LLMs
- Tests zu logischen Fehlschlüssen und LLM-Geschwindigkeitsmythen
Optimierungsleitfaden
Leistungsoptimierung sollte schrittweise erfolgen.
Schritt 1 – Passend machen
- Modellgröße reduzieren
- Quantisierung verwenden
- Kontextfenster begrenzen
Schritt 2 – Latenz stabilisieren
- Prefill-Kosten senken
- Unnötige Wiederholungen vermeiden
- Strukturierte Ausgaben früh validieren
Schritt 3 – Durchsatz verbessern
- Batching erhöhen
- Parallelität anpassen
- Bei Bedarf auf Serving-optimierte Laufzeiten ausweichen
Wenn Ihr Engpass eher in der Hosting-Strategie als im Laufzeitverhalten liegt, siehe:
Häufig gestellte Fragen
Warum ist mein LLM selbst auf einer starken GPU langsam?
Oft liegt es am Speicherdurchsatz, der Kontextlänge oder dem Laufzeitscheduling – nicht an der reinen Rechenleistung.
Was ist wichtiger: VRAM-Größe oder GPU-Modell?
Die VRAM-Kapazität ist meist die erste harte Beschränkung. Wenn es nicht passt, zählt nichts anderes.
Warum sinkt die Leistung bei gleichzeitigen Anfragen?
Warteschlangen, Ressourcenkonflikte und Scheduler-Limits verursachen Leistungsabfallkurven.
Abschließende Gedanken
LLM-Leistung ist Ingenieurskunst, kein Ratespiel.
Messen Sie gezielt.
Verstehen Sie die Beschränkungen.
Optimieren Sie basierend auf Engpässen – nicht auf Annahmen.