Welches ist das beste LLM für Textübersetzungen auf OLLAMA?

Die beste LLM für Textübersetzungen auf OLLAMA ist Mistral small 3.1 24b.

Kann ich diese Übersetzungsmodule auf anderen Backends als Ollama ausführen?

Ja. Der LLM-Hosting-Leitfaden vergleicht Ollama mit vLLM, LocalAI, Docker Model Runner und Cloud-APIs, damit Sie die richtige Backend-Plattform für Ihre Umgebung auswählen können.

Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama

Q: Wo kann ich Ollama mit anderen LLM-Hosting-Optionen vergleichen?

Unser LLM-Hosting-Überblick vergleicht Ollama mit vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern, einschließlich Kosten- und Infrastrukturkompromisse.

qwen3 8b, 14b und 30b, devstral 24b, mistral small 24b

Inhaltsverzeichnis

In diesem Test vergleiche ich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo- Seiten von englisch auf deutsch übersetzen.

Um zu sehen, wie Ollama mit anderen lokalen und Cloud-LLM-Infrastrukturen – vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – vergleicht, siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur verglichen.

Drei Seiten, die ich getestet habe, befassen sich mit unterschiedlichen Themen und enthalten einige schöne Markdown-Elemente mit einer gewissen Struktur: Überschriften, Listen, Tabellen, Links usw.

Alle diese Modelle wurden auf einer NVIDIA-GPU mit 16 GB VRAM ausgeführt. Einige von ihnen passten vollständig in die VRAM, andere (24b und 30b) nicht und verliefen in den CPU-Speicher.

Trotzdem habe ich auch diese getestet.

zwei Seiten – Übersetzung im Gange

Die Ollama-Modelle, die ich getestet habe:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Nachdem ich Übersetzungsaufträge auf all diese Modelle durchgeführt habe, fragte ich ein intelligentes Anthropic-Modell, um die Qualität der Übersetzungen zu analysieren, zu vergleichen und Metriken für jedes Modell bereitzustellen.

Ich habe auch magistral:24b ausprobiert, aber es war thinking zu viel, also war es langsam und verbrauchte alle Kontexte.
Also – nicht für meine GPU.

Die einfache Schlussfolgerung: TL;DR

Das beste Modell ist Mistral Small 3.1 24b. Es passt nicht in 16 GB VRAM, also war es auf meiner Hardware etwas langsam.

Die nächsten beiden besten: Qwen 3 14b und Qwen 3 30b. 14b passt gut hinein, aber 30b ist ein MoE-Modell und daher auch sehr schnell. Auf meiner Hardware war ihre Geschwindigkeit ähnlich.

Test 1: Philosophisches Thema

Das Markdown der Hugo-basierten Website-Seite zu einem großartigen philosophischen Thema – Beschreibung und Beispiele für den Ad Baculum logischen Fehlschluss.

index.de.devstral-24b.md - Bewertung: 7/10 Stärken:

Gute Übersetzung technischer Begriffe (“argumentum ad baculum Fehlschluss”)
Erhaltung der richtigen Linkformatierung und Struktur
Genauere Übersetzung komplexer philosophischer Konzepte
Richtige deutsche Grammatik und Syntax

Schwächen:

„verunstaltet“ für „tainted“ ist etwas unbeholfen; „getrübt“ wäre natürlicher
Einige Phrasen wirken leicht steif oder zu wörtlich
Kleine Flüssigkeitsprobleme in bestimmten Sätzen

index.de.mistral-small3.1-24b.md - Bewertung: 8,5/10 Stärken:

Sehr natürlicher deutscher Sprachfluss
Ausgezeichnete Übersetzung technischer Begriffe
Gute Erhaltung des ursprünglichen Sinnes und Tons
Richtige Grammatik und Satzstruktur
Verwendung von „getrübt“ für „tainted“, was natürlicher ist

Schwächen:

Sehr geringfügige Inkonsistenzen in der Terminologie
Gelegentliche leichte Abweichungen von der Struktur der Quelle

index.de.qwen3-8b.md - Bewertung: 6,5/10 Stärken:

Genauere Übersetzung der Hauptkonzepte
Technische Begriffe richtig behandelt
Erhaltung der Artikelstruktur

Schwächen:

Einige unbeholfene Formulierungen („kann sich auch in alltäglichen Interaktionen breiten“)
Weniger natürlicher deutscher Sprachfluss in mehreren Passagen
Einige grammatische Konstruktionen wirken gezwungen
Fehlendes Wort in „ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt“ (Grammatikfehler)

index.de.qwen3-14b.md - Bewertung: 8/10 Stärken:

Natürlicher deutscher Sprachfluss
Ausgezeichnete Behandlung technischer Terminologie
Gute Erhaltung des ursprünglichen Sinnes
Richtige Grammatik und Syntax
Konsistenter Stil während des gesamten Textes

Schwächen:

Geringfügige Unterschiede in der Terminologie-Konsistenz
Einige Sätze könnten prägnanter formuliert werden

index.de.qwen3-30b-a3b.md - Bewertung: 7,5/10 Stärken:

Gute Gesamtübersetzungqualität
Natürliche deutsche Ausdrucksweise
Technische Begriffe gut übersetzt
Erhaltung der Lesbarkeit und Flüssigkeit
Gute Erhaltung des Sinnes

Schwächen:

Einige geringfügige Inkonsistenzen in der Wortwahl
Gelegentlich etwas unbeholfene Formulierungen
Fehlendes Artikel in der letzten Absatzzeile „über das [Terrain der] Argumentation“

Übersicht der Bewertungen

Datei	Übersetzungsbewertung
index.de.mistral-small3.1-24b.md	8,5/10
index.de.qwen3-14b.md	8,0/10
index.de.qwen3-30b-a3b.md	7,5/10
index.de.devstral-24b.md	7,0/10
index.de.qwen3-8b.md	6,5/10

Beste Übersetzung: index.de.mistral-small3.1-24b.md – Natürlichster deutscher Sprachfluss mit hervorragender technischer Genauigkeit

Verbesserungsbereiche: Die Qwen3-8b-Version benötigt grammatische Korrekturen und natürlichere Formulierungen, während andere hauptsächlich geringfügige Verbesserungen in der Wortwahl und Konsistenz benötigen.

Test 2: Übersetzung der Seite über Qwen3 Embedding & Reranker Modelle auf Ollama.

Basierend auf meiner Analyse der deutschen Übersetzungen im Vergleich zum ursprünglichen englischen Text sind hier die Qualitätsbewertungen im Maßstab von 1–10:

Datei	LLM-Modell	Übersetzungsbewertung	Kommentare
`index.de.devstral-24b.md`	Devstral 24B	8,5/10	Ausgezeichnete Gesamtübersetzung mit natürlichem deutschem Sprachfluss, korrekter technischer Terminologie und vollständiger Erhaltung der Hugo-Shortcodes. Geringfügige Abzüge für einige leicht unbeholfene Formulierungen.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8,7/10	Sehr hohe Qualität der Übersetzung mit konsistenter Terminologie, natürlichem deutschem Sprachfluss und perfekter Formatierungserhaltung. Leicht besserer Fluss als Devstral.
`index.de.qwen3-8b.md`	Qwen3 8B	6,5/10	Gemischte Qualität – enthält Mischung aus englisch-deutscher Sprache im Einleitungsteil („The [Qwen3 Embedding and Reranker models]“ anstelle der vollständigen deutschen Version). Der Rest ist gut übersetzt, aber inkonsistent.
`index.de.qwen3-14b.md`	Qwen3 14B	8,2/10	Gute deutsche Übersetzung mit korrekter technischer Terminologie und natürlichem Sprachfluss. Gut strukturiert und konsistent.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9,0/10	Ausgezeichnete Übersetzung mit sehr natürlichem deutschem Sprachfluss, perfekter konsistenter technischer Terminologie und hervorragender Lesbarkeit. Beste Gesamtübersetzung.

Wichtige Bewertungskriterien:

Beobachtete Stärken bei den Übersetzungen:

Erhaltung der Hugo-Shortcodes ({ {< ref >}}-Syntax)
Genauigkeit der technischen Terminologie
Erhaltung der Markdown-Formatierung
Erhaltung der Tabellenstruktur
Konsistenz der Bildreferenzen

Qualitätsunterschiede:

Sprachkonsistenz – Qwen3 8B hatte Probleme mit der Mischung aus englisch-deutscher Sprache
Natürlicher deutscher Sprachfluss – Qwen3 30B erzielte den natürlichsten deutschen Ausdruck
Technische Präzision – Alle Modelle behandelten technische Begriffe gut
Formatierungserhaltung – Alle erhielten die Hugo-Struktur perfekt

Bewertung nach Qualität:

Qwen3 30B (9,0/10) – Bestes Gesamtergebnis
Mistral Small 3.1 24B (8,7/10) – Sehr stark
Devstral 24B (8,5/10) – Ausgezeichnet
Qwen3 14B (8,2/10) – Gut
Qwen3 8B (6,5/10) – Akzeptabel mit Problemen

Die größeren Modelle (Qwen3 30B und Mistral Small 3.1 24B) erzeugten die höchste Qualität der Übersetzungen, während das kleinere Qwen3 8B-Modell klare Einschränkungen in der Konsistenz zeigte.

Test 3: Reranking mit Ollama und Qwen3 Embedding-Modell – in Go

Grundsätzlich ist es ein früherer Beitrag auf dieser Website:
Reranking von Textdokumenten mit Ollama und Qwen3 Embedding-Modell – in Go.

Basierend auf meiner detaillierten Analyse der deutschen Übersetzungen hier ist die vergleichende Bewertung:

Übersetzungsbewertungsanalyse (1–10-Skala)

Datei	Modell	Punkte	Schlüsselbewertung
index.de.devstral-24b.md	DeVistral 24B	9/10	Ausgezeichnet – Am konsistentesten und professionellsten
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8,5/10	Sehr gut – Natürlicher, aber geringfügige Inkonsistenzen
index.de.qwen3-14b.md	Qwen3 14B	7/10	Gut – Fest mit einigen gemischten Elementen
index.de.qwen3-30b-a3b.md	Qwen3 30B	6,5/10	Angemessen – Enthält nicht übersetzte englische Texte
index.de.qwen3-8b.md	Qwen3 8B	5,5/10	Schlecht – Mehrere Übersetzungsschwächen

Detaillierte vergleichende Analyse:

🥇 DeVistral 24B (9/10) – Sieger Stärken:

Technische Präzision: Verwendet „ollama API-Fehler“ (Kleinschreibung, natürlicher)
Konsistente Übersetzung: „handelt mit parallelen Anfragen“ (sophistizierte Formulierung)
Professionelle Qualität: Vollständige deutsche Übersetzung während des gesamten Textes
Formatierung: Perfekte Erhaltung der Markdown-Struktur

Geringfügige Probleme: Sehr wenige, hauptsächlich stilistische Präferenzen

🥈 Mistral Small 3.1 24B (8,5/10) Stärken:

Natürlicher deutscher Sprachfluss
Gute technische Terminologie: „Ollama-API-Fehler“ (gepunktet, formeller Stil)
Konsistente Verwendung von „verarbeitet parallele Anfragen“

Probleme:

Leicht weniger sophistizierte Formulierungen in einigen technischen Kontexten
Geringfügige Formatierungsvariationen

🥉 Qwen3 14B (7/10) Stärken:

Allgemeine genaue Sinserhaltung
Richtige deutsche Grammatikstruktur

Probleme:

Einige unbeholfene Konstruktionen
Gemischte Qualität in der technischen Terminologie
Enthält „``“ am Anfang und Formatierungsprobleme

Qwen3 30B (6,5/10) Kritische Schwäche:

Enthält nicht übersetzte englische Texte: „This little“ erscheint direkt im deutschen Text
Obwohl größeres Modell, zeigt Übersetzungsinkonstanz
Technische Genauigkeit vorhanden, aber Auslieferung fehlerhaft

Qwen3 8B (5,5/10) Hauptprobleme:

Nicht übersetzte Abschnitte: „This little“ bleibt auf englisch
Inkonsistente Terminologie: Verwendet „RANGORDNUNG“ vs. Standard „RANGIERUNG“
Schlechterer Sprachfluss: Weniger natürliche deutsche Konstruktionen
Zeigt klare Einschränkungen der kleineren Modellgröße

Wichtige Unterschiede:

API-Fehler-Übersetzung:
- DeVistral: ollama API-Fehler (natürlich, Kleinbuchstaben)
- Andere: Ollama-API-Fehler (formell, mit Bindestrich)
Parallele Anfragen:
- DeVistral: „handelt mit parallelen Anfragen“ (sophistiziert)
- Mistral/Qwen3-14B/30B: „verarbeitet parallele Anfragen“ (Standard)
- Qwen3-8B: „behandelt parallele Anfragen“ (weniger präzise)
Abschnittsüberschriften:
- Meiste: „RANGIERUNG NACH ÄHNLICHKEIT“ (Standard)
- Qwen3-8B: „RANGORDNUNG DURCH ÄHNLICHKEIT“ (unbeholfen)
Englische Kontamination:
- Qwen3-30B & Qwen3-8B: „This little“ bleibt unübersetzt
- Andere: Ordentlich ins Deutsche übersetzt zu „Dieses kleine“

Sieger: DeVistral 24B – Zeigt die konsistenteste professionelle deutsche Übersetzung mit sophistizierter technischer Terminologie und vollständiger Sprachumwandlung.

Hehe DeVistral :). Aber das ist ein Fehler eines anderen LLMs.

Für eine umfassendere Vergleichsanalyse von Ollama mit vLLM, LocalAI, Docker Model Runner und Cloud-Optionen – einschließlich der Frage, wann welche für Übersetzungen oder andere Workloads gewählt werden sollte – siehe unseren LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur verglichen.

Die einfache Schlussfolgerung: TL;DR

Test 1: Philosophisches Thema

Test 2: Übersetzung der Seite über Qwen3 Embedding & Reranker Modelle auf Ollama.

Test 3: Reranking mit Ollama und Qwen3 Embedding-Modell – in Go

Nützliche Links