LLM-Leistung 2026: Benchmarks, Engpässe und Optimierung

Inhaltsverzeichnis

LLM-Leistung hängt nicht nur von einer leistungsstarken GPU ab. Inferenzgeschwindigkeit, Latenz und Kosteneffizienz hängen von Beschränkungen über den gesamten Stack hinweg ab:

  • Modellgröße und Quantisierung
  • VRAM-Kapazität und Speicherdurchsatz
  • Kontextlänge und Prompt-Größe
  • Laufzeitscheduling und Batching
  • CPU-Kernauslastung
  • Systemtopologie (PCIe-Lanes, NUMA usw.)

Dieser Hub bietet tiefergehende Analysen darüber, wie sich große Sprachmodelle unter echten Arbeitslasten verhalten – und wie man sie optimieren kann.


Was LLM-Leistung wirklich bedeutet

Leistung ist multidimensional.

Durchsatz vs. Latenz

  • Durchsatz = Token pro Sekunde über viele Anfragen hinweg
  • Latenz = Zeit bis zum ersten Token + Gesamtantwortzeit

Die meisten realen Systeme müssen beide Aspekte ausbalancieren.

Trendgraph auf Laptop

Die Reihenfolge der Engpässe

In der Praxis treten Engpässe in der Regel in dieser Reihenfolge auf:

  1. VRAM-Kapazität
  2. Speicherdurchsatz
  3. Laufzeitscheduling
  4. Größe des Kontextfensters
  5. CPU-Overhead

Zu verstehen, auf welche Beschränkung Sie stoßen, ist wichtiger als das „Upgrade der Hardware".


Ollama-Laufzeitleistung

Ollama wird weit verbreitet für lokale Inferenz eingesetzt. Sein Verhalten unter Last ist kritisch zu verstehen.

CPU-Kern-Scheduling

Parallele Anfragebehandlung

Speicherallokationsverhalten

Probleme bei strukturierten Ausgaben zur Laufzeit


Hardwarebeschränkungen, die zählen

Nicht alle Leistungsprobleme sind GPU-Rechenprobleme.

PCIe- und Topologieeffekte


Benchmarks und Modellvergleiche

Benchmarks sollten eine Entscheidungsfrage beantworten.

Vergleich von Hardware-Plattformen

Real-World-Tests mit 16 GB VRAM

Consumer-GPUs mit 16 GB VRAM sind ein häufiger Wendepunkt für die Modellgröße, die Größe des KV-Cache und ob Schichten auf dem Gerät verbleiben. Die folgenden Beiträge basieren auf derselben Hardwareklasse, aber unterschiedlichen Stacks – Ollamas Laufzeit im Vergleich zu llama.cpp mit expliziten Kontextscans –, sodass Sie Effekte von „Scheduler und Paketierung" von reinem Durchsatz und VRAM-Reserven trennen können.

Modellgeschwindigkeit und Qualitätsbenchmarks

Belastungstests für Fähigkeiten


Optimierungsleitfaden

Leistungsoptimierung sollte schrittweise erfolgen.

Schritt 1 – Passend machen

  • Modellgröße reduzieren
  • Quantisierung verwenden
  • Kontextfenster begrenzen

Schritt 2 – Latenz stabilisieren

  • Prefill-Kosten senken
  • Unnötige Wiederholungen vermeiden
  • Strukturierte Ausgaben früh validieren

Schritt 3 – Durchsatz verbessern

  • Batching erhöhen
  • Parallelität anpassen
  • Bei Bedarf auf Serving-optimierte Laufzeiten ausweichen

Wenn Ihr Engpass eher in der Hosting-Strategie als im Laufzeitverhalten liegt, siehe:


Häufig gestellte Fragen

Warum ist mein LLM selbst auf einer starken GPU langsam?

Oft liegt es am Speicherdurchsatz, der Kontextlänge oder dem Laufzeitscheduling – nicht an der reinen Rechenleistung.

Was ist wichtiger: VRAM-Größe oder GPU-Modell?

Die VRAM-Kapazität ist meist die erste harte Beschränkung. Wenn es nicht passt, zählt nichts anderes.

Warum sinkt die Leistung bei gleichzeitigen Anfragen?

Warteschlangen, Ressourcenkonflikte und Scheduler-Limits verursachen Leistungsabfallkurven.


Abschließende Gedanken

LLM-Leistung ist Ingenieurskunst, kein Ratespiel.

Messen Sie gezielt.
Verstehen Sie die Beschränkungen.
Optimieren Sie basierend auf Engpässen – nicht auf Annahmen.

Abonnieren

Neue Beiträge zu Systemen, Infrastruktur und KI-Engineering.