Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama

qwen3 8b, 14b und 30b, devstral 24b, mistral small 24b

Inhaltsverzeichnis

In diesem Test vergleiche ich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo- Seiten von englisch auf deutsch übersetzen.

Um zu sehen, wie Ollama mit anderen lokalen und Cloud-LLM-Infrastrukturen – vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – vergleicht, siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur verglichen.

Drei Seiten, die ich getestet habe, befassen sich mit unterschiedlichen Themen und enthalten einige schöne Markdown-Elemente mit einer gewissen Struktur: Überschriften, Listen, Tabellen, Links usw.

Alle diese Modelle wurden auf einer NVIDIA-GPU mit 16 GB VRAM ausgeführt. Einige von ihnen passten vollständig in die VRAM, andere (24b und 30b) nicht und verliefen in den CPU-Speicher.

Trotzdem habe ich auch diese getestet.

zwei Seiten – Übersetzung im Gange

Die Ollama-Modelle, die ich getestet habe:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Nachdem ich Übersetzungsaufträge auf all diese Modelle durchgeführt habe, fragte ich ein intelligentes Anthropic-Modell, um die Qualität der Übersetzungen zu analysieren, zu vergleichen und Metriken für jedes Modell bereitzustellen.

Ich habe auch magistral:24b ausprobiert, aber es war thinking zu viel, also war es langsam und verbrauchte alle Kontexte.
Also – nicht für meine GPU.

Die einfache Schlussfolgerung: TL;DR

Das beste Modell ist Mistral Small 3.1 24b. Es passt nicht in 16 GB VRAM, also war es auf meiner Hardware etwas langsam.

Die nächsten beiden besten: Qwen 3 14b und Qwen 3 30b. 14b passt gut hinein, aber 30b ist ein MoE-Modell und daher auch sehr schnell. Auf meiner Hardware war ihre Geschwindigkeit ähnlich.

Test 1: Philosophisches Thema

Das Markdown der Hugo-basierten Website-Seite zu einem großartigen philosophischen Thema – Beschreibung und Beispiele für den Ad Baculum logischen Fehlschluss.

index.de.devstral-24b.md - Bewertung: 7/10 Stärken:

  • Gute Übersetzung technischer Begriffe (“argumentum ad baculum Fehlschluss”)
  • Erhaltung der richtigen Linkformatierung und Struktur
  • Genauere Übersetzung komplexer philosophischer Konzepte
  • Richtige deutsche Grammatik und Syntax

Schwächen:

  • „verunstaltet“ für „tainted“ ist etwas unbeholfen; „getrübt“ wäre natürlicher
  • Einige Phrasen wirken leicht steif oder zu wörtlich
  • Kleine Flüssigkeitsprobleme in bestimmten Sätzen

index.de.mistral-small3.1-24b.md - Bewertung: 8,5/10 Stärken:

  • Sehr natürlicher deutscher Sprachfluss
  • Ausgezeichnete Übersetzung technischer Begriffe
  • Gute Erhaltung des ursprünglichen Sinnes und Tons
  • Richtige Grammatik und Satzstruktur
  • Verwendung von „getrübt“ für „tainted“, was natürlicher ist

Schwächen:

  • Sehr geringfügige Inkonsistenzen in der Terminologie
  • Gelegentliche leichte Abweichungen von der Struktur der Quelle

index.de.qwen3-8b.md - Bewertung: 6,5/10 Stärken:

  • Genauere Übersetzung der Hauptkonzepte
  • Technische Begriffe richtig behandelt
  • Erhaltung der Artikelstruktur

Schwächen:

  • Einige unbeholfene Formulierungen („kann sich auch in alltäglichen Interaktionen breiten“)
  • Weniger natürlicher deutscher Sprachfluss in mehreren Passagen
  • Einige grammatische Konstruktionen wirken gezwungen
  • Fehlendes Wort in „ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt“ (Grammatikfehler)

index.de.qwen3-14b.md - Bewertung: 8/10 Stärken:

  • Natürlicher deutscher Sprachfluss
  • Ausgezeichnete Behandlung technischer Terminologie
  • Gute Erhaltung des ursprünglichen Sinnes
  • Richtige Grammatik und Syntax
  • Konsistenter Stil während des gesamten Textes

Schwächen:

  • Geringfügige Unterschiede in der Terminologie-Konsistenz
  • Einige Sätze könnten prägnanter formuliert werden

index.de.qwen3-30b-a3b.md - Bewertung: 7,5/10 Stärken:

  • Gute Gesamtübersetzungqualität
  • Natürliche deutsche Ausdrucksweise
  • Technische Begriffe gut übersetzt
  • Erhaltung der Lesbarkeit und Flüssigkeit
  • Gute Erhaltung des Sinnes

Schwächen:

  • Einige geringfügige Inkonsistenzen in der Wortwahl
  • Gelegentlich etwas unbeholfene Formulierungen
  • Fehlendes Artikel in der letzten Absatzzeile „über das [Terrain der] Argumentation“

Übersicht der Bewertungen

Datei Übersetzungsbewertung
index.de.mistral-small3.1-24b.md 8,5/10
index.de.qwen3-14b.md 8,0/10
index.de.qwen3-30b-a3b.md 7,5/10
index.de.devstral-24b.md 7,0/10
index.de.qwen3-8b.md 6,5/10

Beste Übersetzung: index.de.mistral-small3.1-24b.md – Natürlichster deutscher Sprachfluss mit hervorragender technischer Genauigkeit

Verbesserungsbereiche: Die Qwen3-8b-Version benötigt grammatische Korrekturen und natürlichere Formulierungen, während andere hauptsächlich geringfügige Verbesserungen in der Wortwahl und Konsistenz benötigen.

Test 2: Übersetzung der Seite über Qwen3 Embedding & Reranker Modelle auf Ollama.

Basierend auf meiner Analyse der deutschen Übersetzungen im Vergleich zum ursprünglichen englischen Text sind hier die Qualitätsbewertungen im Maßstab von 1–10:

Datei LLM-Modell Übersetzungsbewertung Kommentare
index.de.devstral-24b.md Devstral 24B 8,5/10 Ausgezeichnete Gesamtübersetzung mit natürlichem deutschem Sprachfluss, korrekter technischer Terminologie und vollständiger Erhaltung der Hugo-Shortcodes. Geringfügige Abzüge für einige leicht unbeholfene Formulierungen.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8,7/10 Sehr hohe Qualität der Übersetzung mit konsistenter Terminologie, natürlichem deutschem Sprachfluss und perfekter Formatierungserhaltung. Leicht besserer Fluss als Devstral.
index.de.qwen3-8b.md Qwen3 8B 6,5/10 Gemischte Qualität – enthält Mischung aus englisch-deutscher Sprache im Einleitungsteil („The [Qwen3 Embedding and Reranker models]“ anstelle der vollständigen deutschen Version). Der Rest ist gut übersetzt, aber inkonsistent.
index.de.qwen3-14b.md Qwen3 14B 8,2/10 Gute deutsche Übersetzung mit korrekter technischer Terminologie und natürlichem Sprachfluss. Gut strukturiert und konsistent.
index.de.qwen3-30b-a3b.md Qwen3 30B 9,0/10 Ausgezeichnete Übersetzung mit sehr natürlichem deutschem Sprachfluss, perfekter konsistenter technischer Terminologie und hervorragender Lesbarkeit. Beste Gesamtübersetzung.

Wichtige Bewertungskriterien:

Beobachtete Stärken bei den Übersetzungen:

  • Erhaltung der Hugo-Shortcodes ({ {< ref >}}-Syntax)
  • Genauigkeit der technischen Terminologie
  • Erhaltung der Markdown-Formatierung
  • Erhaltung der Tabellenstruktur
  • Konsistenz der Bildreferenzen

Qualitätsunterschiede:

  1. Sprachkonsistenz – Qwen3 8B hatte Probleme mit der Mischung aus englisch-deutscher Sprache
  2. Natürlicher deutscher Sprachfluss – Qwen3 30B erzielte den natürlichsten deutschen Ausdruck
  3. Technische Präzision – Alle Modelle behandelten technische Begriffe gut
  4. Formatierungserhaltung – Alle erhielten die Hugo-Struktur perfekt

Bewertung nach Qualität:

  1. Qwen3 30B (9,0/10) – Bestes Gesamtergebnis
  2. Mistral Small 3.1 24B (8,7/10) – Sehr stark
  3. Devstral 24B (8,5/10) – Ausgezeichnet
  4. Qwen3 14B (8,2/10) – Gut
  5. Qwen3 8B (6,5/10) – Akzeptabel mit Problemen

Die größeren Modelle (Qwen3 30B und Mistral Small 3.1 24B) erzeugten die höchste Qualität der Übersetzungen, während das kleinere Qwen3 8B-Modell klare Einschränkungen in der Konsistenz zeigte.

Test 3: Reranking mit Ollama und Qwen3 Embedding-Modell – in Go

Grundsätzlich ist es ein früherer Beitrag auf dieser Website:
Reranking von Textdokumenten mit Ollama und Qwen3 Embedding-Modell – in Go.

Basierend auf meiner detaillierten Analyse der deutschen Übersetzungen hier ist die vergleichende Bewertung:

Übersetzungsbewertungsanalyse (1–10-Skala)

Datei Modell Punkte Schlüsselbewertung
index.de.devstral-24b.md DeVistral 24B 9/10 Ausgezeichnet – Am konsistentesten und professionellsten
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8,5/10 Sehr gut – Natürlicher, aber geringfügige Inkonsistenzen
index.de.qwen3-14b.md Qwen3 14B 7/10 Gut – Fest mit einigen gemischten Elementen
index.de.qwen3-30b-a3b.md Qwen3 30B 6,5/10 Angemessen – Enthält nicht übersetzte englische Texte
index.de.qwen3-8b.md Qwen3 8B 5,5/10 Schlecht – Mehrere Übersetzungsschwächen

Detaillierte vergleichende Analyse:

🥇 DeVistral 24B (9/10) – Sieger Stärken:

  • Technische Präzision: Verwendet „ollama API-Fehler“ (Kleinschreibung, natürlicher)
  • Konsistente Übersetzung: „handelt mit parallelen Anfragen“ (sophistizierte Formulierung)
  • Professionelle Qualität: Vollständige deutsche Übersetzung während des gesamten Textes
  • Formatierung: Perfekte Erhaltung der Markdown-Struktur

Geringfügige Probleme: Sehr wenige, hauptsächlich stilistische Präferenzen

🥈 Mistral Small 3.1 24B (8,5/10) Stärken:

  • Natürlicher deutscher Sprachfluss
  • Gute technische Terminologie: „Ollama-API-Fehler“ (gepunktet, formeller Stil)
  • Konsistente Verwendung von „verarbeitet parallele Anfragen“

Probleme:

  • Leicht weniger sophistizierte Formulierungen in einigen technischen Kontexten
  • Geringfügige Formatierungsvariationen

🥉 Qwen3 14B (7/10) Stärken:

  • Allgemeine genaue Sinserhaltung
  • Richtige deutsche Grammatikstruktur

Probleme:

  • Einige unbeholfene Konstruktionen
  • Gemischte Qualität in der technischen Terminologie
  • Enthält „``“ am Anfang und Formatierungsprobleme

Qwen3 30B (6,5/10) Kritische Schwäche:

  • Enthält nicht übersetzte englische Texte: „This little“ erscheint direkt im deutschen Text
  • Obwohl größeres Modell, zeigt Übersetzungsinkonstanz
  • Technische Genauigkeit vorhanden, aber Auslieferung fehlerhaft

Qwen3 8B (5,5/10) Hauptprobleme:

  • Nicht übersetzte Abschnitte: „This little“ bleibt auf englisch
  • Inkonsistente Terminologie: Verwendet „RANGORDNUNG“ vs. Standard „RANGIERUNG“
  • Schlechterer Sprachfluss: Weniger natürliche deutsche Konstruktionen
  • Zeigt klare Einschränkungen der kleineren Modellgröße

Wichtige Unterschiede:

  1. API-Fehler-Übersetzung:

    • DeVistral: ollama API-Fehler (natürlich, Kleinbuchstaben)
    • Andere: Ollama-API-Fehler (formell, mit Bindestrich)
  2. Parallele Anfragen:

    • DeVistral: „handelt mit parallelen Anfragen“ (sophistiziert)
    • Mistral/Qwen3-14B/30B: „verarbeitet parallele Anfragen“ (Standard)
    • Qwen3-8B: „behandelt parallele Anfragen“ (weniger präzise)
  3. Abschnittsüberschriften:

    • Meiste: „RANGIERUNG NACH ÄHNLICHKEIT“ (Standard)
    • Qwen3-8B: „RANGORDNUNG DURCH ÄHNLICHKEIT“ (unbeholfen)
  4. Englische Kontamination:

    • Qwen3-30B & Qwen3-8B: „This little“ bleibt unübersetzt
    • Andere: Ordentlich ins Deutsche übersetzt zu „Dieses kleine“

Sieger: DeVistral 24B – Zeigt die konsistenteste professionelle deutsche Übersetzung mit sophistizierter technischer Terminologie und vollständiger Sprachumwandlung.


Hehe DeVistral :). Aber das ist ein Fehler eines anderen LLMs.

Für eine umfassendere Vergleichsanalyse von Ollama mit vLLM, LocalAI, Docker Model Runner und Cloud-Optionen – einschließlich der Frage, wann welche für Übersetzungen oder andere Workloads gewählt werden sollte – siehe unseren LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur verglichen.