Der Aufstieg der LLM-ASICs: Warum Inference-Hardware wichtig ist
Spezialisierte Chips machen die KI-Inferenz schneller und günstiger.
Die Zukunft von KI ist nicht nur über intelligente Modelle definiert – sie ist über intelligente Siliziumchips definiert.
Spezialisierte Hardware für LLM Inferenz treibt eine Revolution an, die der von Bitcoin-Mining ähnelt, als es sich auf ASICs konzentrierte.
Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über verschiedene Laufzeiten und Hardware, siehe LLM Leistung: Benchmarks, Engpässe & Optimierung.
Elektrische Phantasie – Flux Text-to-Image LLM.
Warum LLMs ihre eigene Hardware benötigen
Große Sprachmodelle haben KI revolutioniert, doch hinter jedem flüssigen Antwort liegt eine massive Rechen- und Speicherlast. Da die Inferenzkosten dominieren – oft über die Trainingskosten über die Lebensdauer eines Modells hinaus – macht Hardware, die speziell für Inferenz optimiert ist, wirtschaftlichen Sinn.
Der Vergleich zu Bitcoin-Mining ist nicht zufällig. In beiden Fällen profitiert eine hochspezialisierte, repetitive Arbeitslast enorm von benutzerdefiniertem Silizium, das alles Unwichtige entfernt.
Lehren aus dem Bitcoin-Mining
Das Bitcoin-Mining entwickelte sich durch vier Generationen:
| Ära | Hardware | Hauptvorteil | Einschränkung |
|---|---|---|---|
| 2015–2020 | GPUs (CUDA, ROCm) | Flexibilität | Energiehungrig, speicherbeschränkt |
| 2021–2023 | TPUs, NPUs | Grobgranulare Spezialisierung | Noch trainingsorientiert |
| 2024–2025 | Transformer ASICs | Für niedrigbitige Inferenz optimiert | Begrenzte Allgemeinheit |
AI folgt einem ähnlichen Weg. Jeder Übergang verbesserte Leistung und Energieeffizienz um Größenordnungen.
Allerdings, im Gegensatz zu Bitcoin-ASICs (die nur SHA-256 berechnen), benötigen Inferenz-ASICs etwas Flexibilität. Modelle entwickeln sich, Architekturen ändern sich und Präzisionsverfahren verbessern sich. Der Trick besteht darin, genau genug zu spezialisieren – die Kernmuster festzulegen, während Flexibilität an den Rändern bleibt.
Was LLM-Inferenz von Training unterscheidet
Inferenz hat einzigartige Merkmale, die spezialisierte Hardware nutzen kann:
- Niedrige Präzision dominiert – 8-Bit, 4-Bit, sogar ternäre oder binäre Arithmetik arbeiten gut für Inferenz
- Speicher ist der Engpass – Das Bewegen von Gewichtungen und KV-Caches verbraucht weitaus mehr Energie als Rechenleistung
- Latenz ist wichtiger als Durchsatz – Nutzer erwarten Token unter 200 ms
- Massiver Anfragesparallellismus – Tausende paralleler Inferenzanfragen pro Chip
- Vorhersagbare Muster – Transformer-Schichten sind hochstrukturiert und können festgelegt werden
- Möglichkeiten der Sparsamkeit – Modelle nutzen zunehmend Pruning und MoE (Mischung von Experten) Techniken
Ein für Inferenz entwickelter Chip kann diese Annahmen festlegen, um 10–50× bessere Leistung pro Watt als allgemeine GPUs zu erzielen.
Wer baut LLM-optimierte Hardware
Der Markt für Inferenz-ASICs erwärmt sich mit etablierten Spielern und ambitionierten Start-ups:
| Unternehmen | Chip / Plattform | Spezialisierung |
|---|---|---|
| Groq | LPU (Language Processing Unit) | Deterministischer Durchsatz für LLMs |
| Etched AI | Sohu ASIC | Festgelegte Transformer-Engine |
| Tenstorrent | Grayskull / Blackhole | Allgemeine ML mit hoher Bandbreite |
| OpenAI × Broadcom | Benutzerdefinierte Inferenzchips | Gerücht: 2026 Einführung |
| Intel | Crescent Island | Inferenz-only Xe3P GPU mit 160GB HBM |
| Cerebras | Wafer-Scale Engine (WSE-3) | Massiver on-chip Speicherbandbreite |
Das sind keine Luftschiffe – sie werden heute in Rechenzentren eingesetzt. Zusätzlich entwerfen Start-ups wie d-Matrix, Rain AI, Mythic und Tenet Chips von Grund auf um Transformer-Arithmetik-Muster.
Architektur eines Transformer-Inferenz-ASICs
Was sieht ein für Transformer optimierter Chip unter der Haube aus?
+--------------------------------------+
| Host Interface |
| (PCIe / CXL / NVLink / Ethernet) |
+--------------------------------------+
| On-chip Interconnect (mesh/ring) |
+--------------------------------------+
| Compute Tiles / Cores |
| — Dense matrix multiply units |
| — Low-precision (int8/int4) ALUs |
| — Dequant / Activation units |
+--------------------------------------+
| On-chip SRAM & KV cache buffers |
| — Hot weights, fused caches |
+--------------------------------------+
| Quantization / Dequant Pipelines |
+--------------------------------------+
| Scheduler / Controller |
| — Static graph execution engine |
+--------------------------------------+
| Off-chip DRAM / HBM Interface |
+--------------------------------------+
Wichtige architektonische Merkmale sind:
- Rechenkerne – Dichte Matrix-Multiply-Einheiten optimiert für int8, int4 und ternäre Operationen
- On-chip SRAM – Große Puffer speichern aktuelle Gewichtungen und KV-Caches, um kostspielige DRAM-Zugriffe zu minimieren
- Streaming-Interconnects – Mesh-Topologie ermöglicht effizientes Skalieren über mehrere Chips
- Quantisierungsmotoren – Echtzeit-Quantisierung/Dequantisierung zwischen Schichten
- Compiler-Stack – Übersetzt PyTorch/ONNX-Graphen direkt in chip-spezifische Mikro-Operationen
- Hardwired Attention-Kerne – Eliminiert Kontrollfluss-Overhead für Softmax und andere Operationen
Das Designphilosophie spiegelt Bitcoin-ASICs wider: Jeder Transistor dient dem spezifischen Arbeitsauftrag. Kein verlorener Silizium auf Funktionen, die Inferenz nicht benötigt.
Reale Benchmarks: GPUs vs. Inferenz-ASICs
Hier ist, wie spezialisierte Inferenz-Hardware mit der neuesten GPU-Technologie vergleicht:
| Modell | Hardware | Durchsatz (Tokens/s) | Zeit bis erstes Token | Leistungsverhältnis |
|---|---|---|---|---|
| Llama-2-70B | NVIDIA H100 (8x DGX) | ~80–100 | ~1,7 s | Baseline (1×) |
| Llama-2-70B | Groq LPU | 241–300 | 0,22 s | 3–18× schneller |
| Llama-3.3-70B | Groq LPU | ~276 | ~0,2 s | Konsistent 3× |
| Gemma-7B | Groq LPU | 814 | <0,1 s | 5–15× schneller |
Quellen: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog
Diese Zahlen illustrieren nicht nur inkrementelle Verbesserungen, sondern Größenordnungsverbesserungen sowohl in Durchsatz als auch in Latenz.
Die kritischen Kompromisse
Spezialisierung ist mächtig, aber mit Herausforderungen:
-
Flexibilität vs. Effizienz.
Ein vollständig fester ASIC durchläuft die aktuellen Transformer-Modelle, könnte aber Schwierigkeiten mit zukünftigen Architekturen haben. Was passiert, wenn sich Aufmerksamkeitsmechanismen entwickeln oder neue Modellfamilien auftauchen? -
Quantisierung und Genauigkeit.
Niedrigere Präzision spart massive Mengen an Energie, aber die Verwaltung von Genauigkeitsverlust erfordert geschickte Quantisierungsschemata. Nicht alle Modelle quantisieren sanft bis 4-Bit oder niedriger. -
Software-Ökosystem.
Hardware ohne robuste Compiler, Kerne und Frameworks ist nutzlos. NVIDIA dominiert weiterhin größtenteils aufgrund des reifen CUDA-Ökosystems. Neue Chip-Hersteller müssen stark in Software investieren. -
Kosten und Risiko.
Ein Chip aufzutragen kostet Millionen von Dollar und benötigt 12–24 Monate. Für Start-ups ist das eine massive Wette auf Architekturannahmen, die vielleicht nicht standhalten.
Dennoch, bei Hyperskalierung übersetzen sogar 2× Effizienzgewinne in Milliarden an Einsparungen. Für Cloud-Anbieter mit Millionen von Inferenzanfragen pro Sekunde wird benutzerdefiniertes Silizium immer weniger verhandelbar.
Wie ein idealer LLM-Inferenz-Chip aussieht
| Merkmal | Ideale Spezifikation |
|---|---|
| Prozess | 3–5nm Node |
| On-chip SRAM | 100MB+ eng verbunden |
| Präzision | Native Unterstützung für int8 / int4 / ternär |
| Durchsatz | 500+ Tokens/s (70B Modell) |
| Latenz | <100 ms Zeit bis erstes Token |
| Interconnect | Niedriglatenzierte Mesh- oder optische Verbindungen |
| Compiler | PyTorch/ONNX → Mikrocode-Toolchain |
| Energie | <0,3 Joule pro Token |
Die Zukunft: 2026–2030 und darüber hinaus
Erwarte, dass sich das Inferenz-Hardware-Landschaft in drei Schichten stratifiziert:
-
Trainingschips.
Hohe End-GPUs wie NVIDIA B200 und AMD Instinct MI400 werden weiterhin mit ihrer FP16/FP8 Flexibilität und massiver Speicherbandbreite das Training dominieren. -
Inferenz-ASICs.
Festgelegte, niedrigpräzise Transformer-Verstärker werden Produktionsserving bei Hyperskalierung übernehmen, optimiert für Kosten und Effizienz. -
Edge-NPUs.
Kleine, ultra-effiziente Chips werden quantisierte LLMs auf Smartphones, Fahrzeugen, IoT-Geräten und Robotern bringen, wodurch on-device-Intelligenz ohne Cloud-Abhängigkeit möglich wird.
Jenseits der Hardware allein erwarten wir:
- Hybride Cluster – GPUs für flexibles Training, ASICs für effizientes Serving
- Inferenz als Dienstleistung – Große Cloud-Anbieter implementieren benutzerdefinierte Chips (z. B. AWS Inferentia, Google TPU)
- Hardware-Software-Entwurf – Modelle explizit für hardwarefreundliche Entwürfe entworfen durch Sparsamkeit, Quantisierungsbewusstsein und Blockweises Aufmerksamkeit
- Offene Standards – Standardisierte Inferenz-APIs, um Vendor-Lock-in zu vermeiden
Schlussgedanken
Die “ASIC-Isierung” der KI-Inferenz ist bereits im Gange.
Genauso wie Bitcoin-Mining sich von CPUs zu spezialisierten Silizium entwickelte, folgt die KI-Implementierung demselben Weg.
Die nächste Revolution in KI wird nicht über größere Modelle – sie wird über bessere Chips gehen. Hardware, die für die spezifischen Muster der Transformer-Inferenz optimiert ist, wird bestimmen, wer KI wirtschaftlich in großem Maßstab implementieren kann.
Genauso wie Bitcoin-Miner jede verschwendete Wattzahl optimierten, wird Inferenz-Hardware jede letzte FLOP-per-Joule ausnutzen. Wenn das geschieht, wird der wahre Durchbruch nicht in den Algorithmen liegen – sondern in dem Silizium, das sie ausführt.
Die Zukunft der KI wird in Silizium geschrieben, ein Transistor nach dem anderen.
Für weitere Benchmarks, Hardware-Optionen und Leistungsfeinabstimmung, schauen Sie auf unsere LLM Leistung: Benchmarks, Engpässe & Optimierung-Zentrale.
Nützliche Links
- Groq offizielle Benchmarks
- Artificial Analysis – LLM Leistungstabelle
- NVIDIA H100 Technische Kurzübersicht
- Etched AI – Transformer-ASIC Ankündigung
- Cerebras Wafer-Scale Engine
- NVidia RTX 5080 und RTX 5090 Preise in Australien – Oktober 2025
- LLM Leistung und PCIe-Lanes: Wichtige Überlegungen
- Große Sprachmodelle Geschwindigkeitstest
- Vergleich der NVidia-GPU-Verwendbarkeit für KI
- Ist die Quadro RTX 5880 Ada 48GB gut?