Jämförelse av kvaliteten på Hugo-sidöversättning – LLM:er på Ollama
qwen3 8b, 14b och 30b, devstral 24b, mistral small 24b
I denna test jämför jag hur olika LLM:er som är värd på Ollama översätter Hugo-sidor från engelska till tyska: jämföra hur olika LLM:er värd på Ollama översätter Hugo-sida.
För att se hur Ollama jämförs med andra lokala och molnbaserade LLM-infrastrukturer – vLLM, Docker Model Runner, LocalAI och molnleverantörer – se LLM-värd: Lokal, självvärd och molninfrastruktur jämförd.
Tre sidor som jag testade var om olika ämnen, hade vissa fina markdown med viss struktur: rubriker, listor, tabeller, länkar, osv.
Alla dessa modeller kördes på NVidia GPU med 16 GB VRAM, vissa av dem passade helt in i VRAM, andra (24b och 30b) gjorde det inte och delades ut till CPU.
Trots det testade jag även dessa.

De Ollama-modeller jag har testat:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Efter att ha körts översättningsprompter på alla dessa modeller frågade jag en smart Anthropic-modell att analysera kvaliteten på översättningarna, jämföra och ge mått för varje modell.
Jag har också testat magistral:24b men det var thinking för mycket, så det var långsamt och ät upp all kontext.
Så – inte för min GPU.
Den enkla slutsatsen: TL;DR
Den bästa är Mistral Small 3.1 24b. Den passar inte in i 16 GB VRAM, så var lite långsammare på min hårdvara.
De två bästa efter det: Qwen 3 14b och Qwen 3 30b. 14b passar bra, men 30b är en MoE-modell, så ganska snabb också. På min hårdvara var deras hastighet liknande.
Test 1: Filosofiskt ämne
Markdownen på den Hugo-baserade webbsidans sida om något fantastiskt filosofiskt ämne – beskrivning och exempel på Ad Baculum logiskt fall.
index.de.devstral-24b.md - Bedömning: 7/10 Styrkor:
- Bra översättning av tekniska termer (“argumentum ad baculum Fehlschluss”)
- Behåller korrekt länkformatering och struktur
- Accurata översättning av komplexa filosofiska koncept
- Korrekt tysk grammatik och syntax
Svagheter:
- “verunstaltet” för “tainted” är något obehagligt; “getrübt” skulle vara mer naturligt
- Vissa fraser känns något stel eller allt för litteralt
- Mindre flödesproblem i vissa meningar
index.de.mistral-small3.1-24b.md - Bedömning: 8.5/10 Styrkor:
- Mycket naturlig tysk språkflöde
- Utmärkt översättning av tekniska termer
- Bra bevarande av ursprunglig innebörd och ton
- Korrekt grammatik och meningsstruktur
- Använder “getrübt” för “tainted” vilket är mer naturligt
Svagheter:
- Väldigt små oenigheter i terminologi
- Ibland några små avvikelser från källstrukturen
index.de.qwen3-8b.md - Bedömning: 6.5/10 Styrkor:
- Accurata översättning av huvudkoncept
- Tekniska termer hanteras korrekt
- Behåller artiklens struktur
Svagheter:
- Vissa obehagliga formuleringar (“kann sich auch in alltäglichen Interaktionen breiten”)
- Mindre naturligt tyskt språkflöde i flera passager
- Vissa grammatiska konstruktioner känns tvingade
- Saknad ord i “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (grammatikfel)
index.de.qwen3-14b.md - Bedömning: 8/10 Styrkor:
- Naturligt tyskt språkflöde
- Utmärkt hantering av tekniska termer
- Bra bevarande av ursprunglig innebörd
- Korrekt grammatik och syntax
- Konsekvent stil genom hela texten
Svagheter:
- Mindre variationer i terminologisk konsekvens
- Vissa meningar kunde vara mer koncisa
index.de.qwen3-30b-a3b.md - Bedömning: 7.5/10 Styrkor:
- Bra allmän översättningskvalitet
- Naturlig tysk uttryck
- Tekniska termer översätts bra
- Behåller läsbarhet och flöde
- Bra bevarande av innebörden
Svagheter:
- Vissa mindre oenigheter i ordval
- Ibland något obehagliga formuleringar
- Saknad artikel i sista stycket “über das [Terrain der] Argumentation”
Sammanfattande rangordning
| Fil | Översättningskvalitetsscore |
|---|---|
| index.de.mistral-small3.1-24b.md | 8.5/10 |
| index.de.qwen3-14b.md | 8.0/10 |
| index.de.qwen3-30b-a3b.md | 7.5/10 |
| index.de.devstral-24b.md | 7.0/10 |
| index.de.qwen3-8b.md | 6.5/10 |
Bästa översättningen: index.de.mistral-small3.1-24b.md - mest naturligt tyskt språkflöde med utmärkt teknisk noggrannhet
Fält för förbättring: Qwen3-8b-versionen behöver grammatiska korrigeringar och mer naturliga formuleringar, medan andra främst behöver små förfiningar i ordval och konsekvens.
Test 2: Översättning av sidan om Qwen3 Embedding & Reranker-modeller på Ollama.
Baserat på min analys av de tyska översättningarna jämfört med den ursprungliga engelska texten, här är kvalitetsbedömningarna på en skala från 1-10:
| Fil | LLM-modell | Översättningskvalitetsscore | Kommentarer |
|---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Utmärkt allmän översättning med naturligt tyskt språkflöde, korrekt teknisk terminologi och fullständig bevarande av Hugo-kortkommandon. Mindre avdrag för vissa något obehagliga formuleringar. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Mycket hög kvalitet i översättning med konsekvent terminologi, naturligt tyskt språk och perfekt bevarande av formatering. Lite bättre flöde än Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Måttlig kvalitet – innehåller blandningar mellan engelska och tyska i inledande stycket (“The [Qwen3 Embedding and Reranker models]” istället för fullständigt tyska). Resten är väl översatt men ojämn. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | God tysk översättning med korrekt teknisk terminologi och naturligt flöde. Bra strukturerad och konsekvent genom hela texten. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Utmärkt översättningskvalitet med mycket naturligt tyskt språk, perfekt teknisk terminologisk konsekvens och utmärkt läsbarhet. Bästa översättning överlag. |
Viktiga bedömningskriterier:
Styrkor som observerats i översättningarna:
- Bevarande av Hugo-kortkommandon (
{ {< ref >}}syntax) - Teknisk terminologisk noggrannhet
- Bevarande av markdown-formatering
- Bevarande av tabellstruktur
- Konsekvens i bildreferenser
Kvalitetsdifferenser:
- Språkkonsekvens – Qwen3 8B hade problem med engelska-tyska blandning
- Naturligt tyskt språkflöde – Qwen3 30B uppnådde mest naturligt tyskt uttryck
- Teknisk precision – Alla modeller hanterade tekniska termer bra
- Formateringsbevarande – Alla bevarade Hugo-strukturen perfekt
Rankning efter kvalitet:
- Qwen3 30B (9.0/10) - Bäst överlag
- Mistral Small 3.1 24B (8.7/10) - Mycket stark
- Devstral 24B (8.5/10) - Utmärkt
- Qwen3 14B (8.2/10) - God
- Qwen3 8B (6.5/10) - Tillräcklig med problem
De större modellerna (Qwen3 30B och Mistral Small 3.1 24B) producerade de högsta kvalitetsöversättningarna, medan den mindre Qwen3 8B-modellen visade tydliga begränsningar i konsekvens.
Test 3: Reranking med Ollama och Qwen3 Embedding-modell – i Go
Det är i huvudsak en tidigare inlägg på denna webbplats: Reranking av textdokument med Ollama och Qwen3 Embedding-modell – i Go.
Baserat på min detaljerade analys av de tyska översättningarna, här är den jämförande bedömningen:
Översättningskvalitetsanalys (skala 1-10)
| Fil | Modell | Poäng | Nyckelbedömning |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | Utmärkt - mest konsekvent och professionell |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Väldigt god - naturligt men små oenigheter |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | God - fast med några blandade element |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Bra - innehåller oöversatta engelska |
| index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Dålig - flera översättningsfel |
Detaljerad jämförande analys:
🥇 DeVistral 24B (9/10) - Vinnare Styrkor:
- Teknisk noggrannhet: Använder “ollama API-Fehler” (liten bokstav, mer naturligt)
- Konsekvent översättning: “handelt mit parallelen Anfragen” (sophistikerad formulering)
- Professionell kvalitet: Fullständig tysk översättning genom hela texten
- Formatering: Perfekt bevarande av markdown-struktur
Mindre problem: Väldigt få, mest stilistiska preferenser
🥈 Mistral Small 3.1 24B (8.5/10) Styrkor:
- Naturligt tyskt språkflöde
- Bra teknisk terminologi: “Ollama-API-Fehler” (bindestreck, formell stil)
- Konsekvent “verarbeitet parallele Anfragen”
Problem:
- Lägre sofistikerad formulering i vissa tekniska sammanhang
- Mindre formateringsvarier
🥉 Qwen3 14B (7/10) Styrkor:
- Generellt korrekt bevarande av innebörd
- Korrekt tysk grammatikstruktur
Problem:
- Vissa obehagliga konstruktioner
- Måttlig kvalitet i teknisk terminologi
- Innehåller “```” vid början och formateringsproblem
Qwen3 30B (6.5/10) Kritiskt fel:
- Innehåller oöversatta engelska: “This little” visas direkt i tyskt text
- Även om det är en större modell, visar det översättningsinkonsistenser
- Teknisk noggrannhet finns men leverans är felaktig
Qwen3 8B (5.5/10) Stora problem:
- Oöversatta avsnitt: “This little” lämnas i engelska
- Ojämn terminologi: Använder “RANGORDNUNG” istället för standard “RANGIERUNG”
- Dåligt flöde: Mindre naturliga tyska konstruktioner
- Visar tydliga begränsningar hos den mindre modellen
Hittade nyckelskillnader:
-
API-felöversättning:
- DeVistral:
ollama API-Fehler(naturligt, liten bokstav) - Övriga:
Ollama-API-Fehler(formellt, bindestreck)
- DeVistral:
-
Parallella anfrågor:
- DeVistral: “handelt mit parallelen Anfragen” (sophistikerad)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
- Qwen3-8B: “behandelt parallele Anfragen” (mindre exakt)
-
Avsnittshuvuden:
- De flesta: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (oanpassad)
-
Engelsk kontaminering:
- Qwen3-30B & Qwen3-8B: Lämnar “This little” oöversatt
- Övriga: Översätter korrekt till “Dieses kleine”
Vinnare: DeVistral 24B – visar mest konsekvent professionell tysk översättning med sofistikerad teknisk terminologi och fullständig språkkonvertering.
Hehe DeVistral :). Men det är ett annan LLM-fel.
För en bredare jämförelse av Ollama med vLLM, LocalAI, Docker Model Runner och molnalternativ – inklusive när att välja varje för översättning eller andra arbetsbelastningar – se vår LLM-värd: Lokal, självvärd och molninfrastruktur jämförd.