Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama
qwen3 8b, 14b und 30b, devstral 24b, mistral small 24b
In diesem Test vergleiche ich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo- Seiten von englisch auf deutsch übersetzen.
Um zu sehen, wie Ollama mit anderen lokalen und Cloud-LLM-Infrastrukturen – vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – vergleicht, siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur verglichen.
Drei Seiten, die ich getestet habe, befassen sich mit unterschiedlichen Themen und enthalten einige schöne Markdown-Elemente mit einer gewissen Struktur: Überschriften, Listen, Tabellen, Links usw.
Alle diese Modelle wurden auf einer NVIDIA-GPU mit 16 GB VRAM ausgeführt. Einige von ihnen passten vollständig in die VRAM, andere (24b und 30b) nicht und verliefen in den CPU-Speicher.
Trotzdem habe ich auch diese getestet.

Die Ollama-Modelle, die ich getestet habe:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Nachdem ich Übersetzungsaufträge auf all diese Modelle durchgeführt habe, fragte ich ein intelligentes Anthropic-Modell, um die Qualität der Übersetzungen zu analysieren, zu vergleichen und Metriken für jedes Modell bereitzustellen.
Ich habe auch magistral:24b ausprobiert, aber es war thinking zu viel, also war es langsam und verbrauchte alle Kontexte.
Also – nicht für meine GPU.
Die einfache Schlussfolgerung: TL;DR
Das beste Modell ist Mistral Small 3.1 24b. Es passt nicht in 16 GB VRAM, also war es auf meiner Hardware etwas langsam.
Die nächsten beiden besten: Qwen 3 14b und Qwen 3 30b. 14b passt gut hinein, aber 30b ist ein MoE-Modell und daher auch sehr schnell. Auf meiner Hardware war ihre Geschwindigkeit ähnlich.
Test 1: Philosophisches Thema
Das Markdown der Hugo-basierten Website-Seite zu einem großartigen philosophischen Thema – Beschreibung und Beispiele für den Ad Baculum logischen Fehlschluss.
index.de.devstral-24b.md - Bewertung: 7/10 Stärken:
- Gute Übersetzung technischer Begriffe (“argumentum ad baculum Fehlschluss”)
- Erhaltung der richtigen Linkformatierung und Struktur
- Genauere Übersetzung komplexer philosophischer Konzepte
- Richtige deutsche Grammatik und Syntax
Schwächen:
- „verunstaltet“ für „tainted“ ist etwas unbeholfen; „getrübt“ wäre natürlicher
- Einige Phrasen wirken leicht steif oder zu wörtlich
- Kleine Flüssigkeitsprobleme in bestimmten Sätzen
index.de.mistral-small3.1-24b.md - Bewertung: 8,5/10 Stärken:
- Sehr natürlicher deutscher Sprachfluss
- Ausgezeichnete Übersetzung technischer Begriffe
- Gute Erhaltung des ursprünglichen Sinnes und Tons
- Richtige Grammatik und Satzstruktur
- Verwendung von „getrübt“ für „tainted“, was natürlicher ist
Schwächen:
- Sehr geringfügige Inkonsistenzen in der Terminologie
- Gelegentliche leichte Abweichungen von der Struktur der Quelle
index.de.qwen3-8b.md - Bewertung: 6,5/10 Stärken:
- Genauere Übersetzung der Hauptkonzepte
- Technische Begriffe richtig behandelt
- Erhaltung der Artikelstruktur
Schwächen:
- Einige unbeholfene Formulierungen („kann sich auch in alltäglichen Interaktionen breiten“)
- Weniger natürlicher deutscher Sprachfluss in mehreren Passagen
- Einige grammatische Konstruktionen wirken gezwungen
- Fehlendes Wort in „ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt“ (Grammatikfehler)
index.de.qwen3-14b.md - Bewertung: 8/10 Stärken:
- Natürlicher deutscher Sprachfluss
- Ausgezeichnete Behandlung technischer Terminologie
- Gute Erhaltung des ursprünglichen Sinnes
- Richtige Grammatik und Syntax
- Konsistenter Stil während des gesamten Textes
Schwächen:
- Geringfügige Unterschiede in der Terminologie-Konsistenz
- Einige Sätze könnten prägnanter formuliert werden
index.de.qwen3-30b-a3b.md - Bewertung: 7,5/10 Stärken:
- Gute Gesamtübersetzungqualität
- Natürliche deutsche Ausdrucksweise
- Technische Begriffe gut übersetzt
- Erhaltung der Lesbarkeit und Flüssigkeit
- Gute Erhaltung des Sinnes
Schwächen:
- Einige geringfügige Inkonsistenzen in der Wortwahl
- Gelegentlich etwas unbeholfene Formulierungen
- Fehlendes Artikel in der letzten Absatzzeile „über das [Terrain der] Argumentation“
Übersicht der Bewertungen
| Datei | Übersetzungsbewertung |
|---|---|
| index.de.mistral-small3.1-24b.md | 8,5/10 |
| index.de.qwen3-14b.md | 8,0/10 |
| index.de.qwen3-30b-a3b.md | 7,5/10 |
| index.de.devstral-24b.md | 7,0/10 |
| index.de.qwen3-8b.md | 6,5/10 |
Beste Übersetzung: index.de.mistral-small3.1-24b.md – Natürlichster deutscher Sprachfluss mit hervorragender technischer Genauigkeit
Verbesserungsbereiche: Die Qwen3-8b-Version benötigt grammatische Korrekturen und natürlichere Formulierungen, während andere hauptsächlich geringfügige Verbesserungen in der Wortwahl und Konsistenz benötigen.
Test 2: Übersetzung der Seite über Qwen3 Embedding & Reranker Modelle auf Ollama.
Basierend auf meiner Analyse der deutschen Übersetzungen im Vergleich zum ursprünglichen englischen Text sind hier die Qualitätsbewertungen im Maßstab von 1–10:
| Datei | LLM-Modell | Übersetzungsbewertung | Kommentare |
|---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8,5/10 | Ausgezeichnete Gesamtübersetzung mit natürlichem deutschem Sprachfluss, korrekter technischer Terminologie und vollständiger Erhaltung der Hugo-Shortcodes. Geringfügige Abzüge für einige leicht unbeholfene Formulierungen. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8,7/10 | Sehr hohe Qualität der Übersetzung mit konsistenter Terminologie, natürlichem deutschem Sprachfluss und perfekter Formatierungserhaltung. Leicht besserer Fluss als Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6,5/10 | Gemischte Qualität – enthält Mischung aus englisch-deutscher Sprache im Einleitungsteil („The [Qwen3 Embedding and Reranker models]“ anstelle der vollständigen deutschen Version). Der Rest ist gut übersetzt, aber inkonsistent. |
index.de.qwen3-14b.md |
Qwen3 14B | 8,2/10 | Gute deutsche Übersetzung mit korrekter technischer Terminologie und natürlichem Sprachfluss. Gut strukturiert und konsistent. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9,0/10 | Ausgezeichnete Übersetzung mit sehr natürlichem deutschem Sprachfluss, perfekter konsistenter technischer Terminologie und hervorragender Lesbarkeit. Beste Gesamtübersetzung. |
Wichtige Bewertungskriterien:
Beobachtete Stärken bei den Übersetzungen:
- Erhaltung der Hugo-Shortcodes (
{ {< ref >}}-Syntax) - Genauigkeit der technischen Terminologie
- Erhaltung der Markdown-Formatierung
- Erhaltung der Tabellenstruktur
- Konsistenz der Bildreferenzen
Qualitätsunterschiede:
- Sprachkonsistenz – Qwen3 8B hatte Probleme mit der Mischung aus englisch-deutscher Sprache
- Natürlicher deutscher Sprachfluss – Qwen3 30B erzielte den natürlichsten deutschen Ausdruck
- Technische Präzision – Alle Modelle behandelten technische Begriffe gut
- Formatierungserhaltung – Alle erhielten die Hugo-Struktur perfekt
Bewertung nach Qualität:
- Qwen3 30B (9,0/10) – Bestes Gesamtergebnis
- Mistral Small 3.1 24B (8,7/10) – Sehr stark
- Devstral 24B (8,5/10) – Ausgezeichnet
- Qwen3 14B (8,2/10) – Gut
- Qwen3 8B (6,5/10) – Akzeptabel mit Problemen
Die größeren Modelle (Qwen3 30B und Mistral Small 3.1 24B) erzeugten die höchste Qualität der Übersetzungen, während das kleinere Qwen3 8B-Modell klare Einschränkungen in der Konsistenz zeigte.
Test 3: Reranking mit Ollama und Qwen3 Embedding-Modell – in Go
Grundsätzlich ist es ein früherer Beitrag auf dieser Website:
Reranking von Textdokumenten mit Ollama und Qwen3 Embedding-Modell – in Go.
Basierend auf meiner detaillierten Analyse der deutschen Übersetzungen hier ist die vergleichende Bewertung:
Übersetzungsbewertungsanalyse (1–10-Skala)
| Datei | Modell | Punkte | Schlüsselbewertung |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | Ausgezeichnet – Am konsistentesten und professionellsten |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8,5/10 | Sehr gut – Natürlicher, aber geringfügige Inkonsistenzen |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Gut – Fest mit einigen gemischten Elementen |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6,5/10 | Angemessen – Enthält nicht übersetzte englische Texte |
| index.de.qwen3-8b.md | Qwen3 8B | 5,5/10 | Schlecht – Mehrere Übersetzungsschwächen |
Detaillierte vergleichende Analyse:
🥇 DeVistral 24B (9/10) – Sieger Stärken:
- Technische Präzision: Verwendet „ollama API-Fehler“ (Kleinschreibung, natürlicher)
- Konsistente Übersetzung: „handelt mit parallelen Anfragen“ (sophistizierte Formulierung)
- Professionelle Qualität: Vollständige deutsche Übersetzung während des gesamten Textes
- Formatierung: Perfekte Erhaltung der Markdown-Struktur
Geringfügige Probleme: Sehr wenige, hauptsächlich stilistische Präferenzen
🥈 Mistral Small 3.1 24B (8,5/10) Stärken:
- Natürlicher deutscher Sprachfluss
- Gute technische Terminologie: „Ollama-API-Fehler“ (gepunktet, formeller Stil)
- Konsistente Verwendung von „verarbeitet parallele Anfragen“
Probleme:
- Leicht weniger sophistizierte Formulierungen in einigen technischen Kontexten
- Geringfügige Formatierungsvariationen
🥉 Qwen3 14B (7/10) Stärken:
- Allgemeine genaue Sinserhaltung
- Richtige deutsche Grammatikstruktur
Probleme:
- Einige unbeholfene Konstruktionen
- Gemischte Qualität in der technischen Terminologie
- Enthält „``“ am Anfang und Formatierungsprobleme
Qwen3 30B (6,5/10) Kritische Schwäche:
- Enthält nicht übersetzte englische Texte: „This little“ erscheint direkt im deutschen Text
- Obwohl größeres Modell, zeigt Übersetzungsinkonstanz
- Technische Genauigkeit vorhanden, aber Auslieferung fehlerhaft
Qwen3 8B (5,5/10) Hauptprobleme:
- Nicht übersetzte Abschnitte: „This little“ bleibt auf englisch
- Inkonsistente Terminologie: Verwendet „RANGORDNUNG“ vs. Standard „RANGIERUNG“
- Schlechterer Sprachfluss: Weniger natürliche deutsche Konstruktionen
- Zeigt klare Einschränkungen der kleineren Modellgröße
Wichtige Unterschiede:
-
API-Fehler-Übersetzung:
- DeVistral:
ollama API-Fehler(natürlich, Kleinbuchstaben) - Andere:
Ollama-API-Fehler(formell, mit Bindestrich)
- DeVistral:
-
Parallele Anfragen:
- DeVistral: „handelt mit parallelen Anfragen“ (sophistiziert)
- Mistral/Qwen3-14B/30B: „verarbeitet parallele Anfragen“ (Standard)
- Qwen3-8B: „behandelt parallele Anfragen“ (weniger präzise)
-
Abschnittsüberschriften:
- Meiste: „RANGIERUNG NACH ÄHNLICHKEIT“ (Standard)
- Qwen3-8B: „RANGORDNUNG DURCH ÄHNLICHKEIT“ (unbeholfen)
-
Englische Kontamination:
- Qwen3-30B & Qwen3-8B: „This little“ bleibt unübersetzt
- Andere: Ordentlich ins Deutsche übersetzt zu „Dieses kleine“
Sieger: DeVistral 24B – Zeigt die konsistenteste professionelle deutsche Übersetzung mit sophistizierter technischer Terminologie und vollständiger Sprachumwandlung.
Hehe DeVistral :). Aber das ist ein Fehler eines anderen LLMs.
Für eine umfassendere Vergleichsanalyse von Ollama mit vLLM, LocalAI, Docker Model Runner und Cloud-Optionen – einschließlich der Frage, wann welche für Übersetzungen oder andere Workloads gewählt werden sollte – siehe unseren LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur verglichen.