Jämförelse av kvaliteten på Hugo-sidöversättning – LLM:er på Ollama

qwen3 8b, 14b och 30b, devstral 24b, mistral small 24b

Sidinnehåll

I denna test jämför jag hur olika LLM:er som är värd på Ollama översätter Hugo-sidor från engelska till tyska: jämföra hur olika LLM:er värd på Ollama översätter Hugo-sida.

För att se hur Ollama jämförs med andra lokala och molnbaserade LLM-infrastrukturer – vLLM, Docker Model Runner, LocalAI och molnleverantörer – se LLM-värd: Lokal, självvärd och molninfrastruktur jämförd.

Tre sidor som jag testade var om olika ämnen, hade vissa fina markdown med viss struktur: rubriker, listor, tabeller, länkar, osv.

Alla dessa modeller kördes på NVidia GPU med 16 GB VRAM, vissa av dem passade helt in i VRAM, andra (24b och 30b) gjorde det inte och delades ut till CPU.

Trots det testade jag även dessa.

två sidor – översättning pågår

De Ollama-modeller jag har testat:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Efter att ha körts översättningsprompter på alla dessa modeller frågade jag en smart Anthropic-modell att analysera kvaliteten på översättningarna, jämföra och ge mått för varje modell.

Jag har också testat magistral:24b men det var thinking för mycket, så det var långsamt och ät upp all kontext. Så – inte för min GPU.

Den enkla slutsatsen: TL;DR

Den bästa är Mistral Small 3.1 24b. Den passar inte in i 16 GB VRAM, så var lite långsammare på min hårdvara.

De två bästa efter det: Qwen 3 14b och Qwen 3 30b. 14b passar bra, men 30b är en MoE-modell, så ganska snabb också. På min hårdvara var deras hastighet liknande.

Test 1: Filosofiskt ämne

Markdownen på den Hugo-baserade webbsidans sida om något fantastiskt filosofiskt ämne – beskrivning och exempel på Ad Baculum logiskt fall.

index.de.devstral-24b.md - Bedömning: 7/10 Styrkor:

  • Bra översättning av tekniska termer (“argumentum ad baculum Fehlschluss”)
  • Behåller korrekt länkformatering och struktur
  • Accurata översättning av komplexa filosofiska koncept
  • Korrekt tysk grammatik och syntax

Svagheter:

  • “verunstaltet” för “tainted” är något obehagligt; “getrübt” skulle vara mer naturligt
  • Vissa fraser känns något stel eller allt för litteralt
  • Mindre flödesproblem i vissa meningar

index.de.mistral-small3.1-24b.md - Bedömning: 8.5/10 Styrkor:

  • Mycket naturlig tysk språkflöde
  • Utmärkt översättning av tekniska termer
  • Bra bevarande av ursprunglig innebörd och ton
  • Korrekt grammatik och meningsstruktur
  • Använder “getrübt” för “tainted” vilket är mer naturligt

Svagheter:

  • Väldigt små oenigheter i terminologi
  • Ibland några små avvikelser från källstrukturen

index.de.qwen3-8b.md - Bedömning: 6.5/10 Styrkor:

  • Accurata översättning av huvudkoncept
  • Tekniska termer hanteras korrekt
  • Behåller artiklens struktur

Svagheter:

  • Vissa obehagliga formuleringar (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Mindre naturligt tyskt språkflöde i flera passager
  • Vissa grammatiska konstruktioner känns tvingade
  • Saknad ord i “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (grammatikfel)

index.de.qwen3-14b.md - Bedömning: 8/10 Styrkor:

  • Naturligt tyskt språkflöde
  • Utmärkt hantering av tekniska termer
  • Bra bevarande av ursprunglig innebörd
  • Korrekt grammatik och syntax
  • Konsekvent stil genom hela texten

Svagheter:

  • Mindre variationer i terminologisk konsekvens
  • Vissa meningar kunde vara mer koncisa

index.de.qwen3-30b-a3b.md - Bedömning: 7.5/10 Styrkor:

  • Bra allmän översättningskvalitet
  • Naturlig tysk uttryck
  • Tekniska termer översätts bra
  • Behåller läsbarhet och flöde
  • Bra bevarande av innebörden

Svagheter:

  • Vissa mindre oenigheter i ordval
  • Ibland något obehagliga formuleringar
  • Saknad artikel i sista stycket “über das [Terrain der] Argumentation”

Sammanfattande rangordning

Fil Översättningskvalitetsscore
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Bästa översättningen: index.de.mistral-small3.1-24b.md - mest naturligt tyskt språkflöde med utmärkt teknisk noggrannhet

Fält för förbättring: Qwen3-8b-versionen behöver grammatiska korrigeringar och mer naturliga formuleringar, medan andra främst behöver små förfiningar i ordval och konsekvens.

Test 2: Översättning av sidan om Qwen3 Embedding & Reranker-modeller på Ollama.

Baserat på min analys av de tyska översättningarna jämfört med den ursprungliga engelska texten, här är kvalitetsbedömningarna på en skala från 1-10:

Fil LLM-modell Översättningskvalitetsscore Kommentarer
index.de.devstral-24b.md Devstral 24B 8.5/10 Utmärkt allmän översättning med naturligt tyskt språkflöde, korrekt teknisk terminologi och fullständig bevarande av Hugo-kortkommandon. Mindre avdrag för vissa något obehagliga formuleringar.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Mycket hög kvalitet i översättning med konsekvent terminologi, naturligt tyskt språk och perfekt bevarande av formatering. Lite bättre flöde än Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Måttlig kvalitet – innehåller blandningar mellan engelska och tyska i inledande stycket (“The [Qwen3 Embedding and Reranker models]” istället för fullständigt tyska). Resten är väl översatt men ojämn.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 God tysk översättning med korrekt teknisk terminologi och naturligt flöde. Bra strukturerad och konsekvent genom hela texten.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Utmärkt översättningskvalitet med mycket naturligt tyskt språk, perfekt teknisk terminologisk konsekvens och utmärkt läsbarhet. Bästa översättning överlag.

Viktiga bedömningskriterier:

Styrkor som observerats i översättningarna:

  • Bevarande av Hugo-kortkommandon ({ {< ref >}} syntax)
  • Teknisk terminologisk noggrannhet
  • Bevarande av markdown-formatering
  • Bevarande av tabellstruktur
  • Konsekvens i bildreferenser

Kvalitetsdifferenser:

  1. Språkkonsekvens – Qwen3 8B hade problem med engelska-tyska blandning
  2. Naturligt tyskt språkflöde – Qwen3 30B uppnådde mest naturligt tyskt uttryck
  3. Teknisk precision – Alla modeller hanterade tekniska termer bra
  4. Formateringsbevarande – Alla bevarade Hugo-strukturen perfekt

Rankning efter kvalitet:

  1. Qwen3 30B (9.0/10) - Bäst överlag
  2. Mistral Small 3.1 24B (8.7/10) - Mycket stark
  3. Devstral 24B (8.5/10) - Utmärkt
  4. Qwen3 14B (8.2/10) - God
  5. Qwen3 8B (6.5/10) - Tillräcklig med problem

De större modellerna (Qwen3 30B och Mistral Small 3.1 24B) producerade de högsta kvalitetsöversättningarna, medan den mindre Qwen3 8B-modellen visade tydliga begränsningar i konsekvens.

Test 3: Reranking med Ollama och Qwen3 Embedding-modell – i Go

Det är i huvudsak en tidigare inlägg på denna webbplats: Reranking av textdokument med Ollama och Qwen3 Embedding-modell – i Go.

Baserat på min detaljerade analys av de tyska översättningarna, här är den jämförande bedömningen:

Översättningskvalitetsanalys (skala 1-10)

Fil Modell Poäng Nyckelbedömning
index.de.devstral-24b.md DeVistral 24B 9/10 Utmärkt - mest konsekvent och professionell
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Väldigt god - naturligt men små oenigheter
index.de.qwen3-14b.md Qwen3 14B 7/10 God - fast med några blandade element
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Bra - innehåller oöversatta engelska
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Dålig - flera översättningsfel

Detaljerad jämförande analys:

🥇 DeVistral 24B (9/10) - Vinnare Styrkor:

  • Teknisk noggrannhet: Använder “ollama API-Fehler” (liten bokstav, mer naturligt)
  • Konsekvent översättning: “handelt mit parallelen Anfragen” (sophistikerad formulering)
  • Professionell kvalitet: Fullständig tysk översättning genom hela texten
  • Formatering: Perfekt bevarande av markdown-struktur

Mindre problem: Väldigt få, mest stilistiska preferenser

🥈 Mistral Small 3.1 24B (8.5/10) Styrkor:

  • Naturligt tyskt språkflöde
  • Bra teknisk terminologi: “Ollama-API-Fehler” (bindestreck, formell stil)
  • Konsekvent “verarbeitet parallele Anfragen”

Problem:

  • Lägre sofistikerad formulering i vissa tekniska sammanhang
  • Mindre formateringsvarier

🥉 Qwen3 14B (7/10) Styrkor:

  • Generellt korrekt bevarande av innebörd
  • Korrekt tysk grammatikstruktur

Problem:

  • Vissa obehagliga konstruktioner
  • Måttlig kvalitet i teknisk terminologi
  • Innehåller “```” vid början och formateringsproblem

Qwen3 30B (6.5/10) Kritiskt fel:

  • Innehåller oöversatta engelska: “This little” visas direkt i tyskt text
  • Även om det är en större modell, visar det översättningsinkonsistenser
  • Teknisk noggrannhet finns men leverans är felaktig

Qwen3 8B (5.5/10) Stora problem:

  • Oöversatta avsnitt: “This little” lämnas i engelska
  • Ojämn terminologi: Använder “RANGORDNUNG” istället för standard “RANGIERUNG”
  • Dåligt flöde: Mindre naturliga tyska konstruktioner
  • Visar tydliga begränsningar hos den mindre modellen

Hittade nyckelskillnader:

  1. API-felöversättning:

    • DeVistral: ollama API-Fehler (naturligt, liten bokstav)
    • Övriga: Ollama-API-Fehler (formellt, bindestreck)
  2. Parallella anfrågor:

    • DeVistral: “handelt mit parallelen Anfragen” (sophistikerad)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
    • Qwen3-8B: “behandelt parallele Anfragen” (mindre exakt)
  3. Avsnittshuvuden:

    • De flesta: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (oanpassad)
  4. Engelsk kontaminering:

    • Qwen3-30B & Qwen3-8B: Lämnar “This little” oöversatt
    • Övriga: Översätter korrekt till “Dieses kleine”

Vinnare: DeVistral 24B – visar mest konsekvent professionell tysk översättning med sofistikerad teknisk terminologi och fullständig språkkonvertering.


Hehe DeVistral :). Men det är ett annan LLM-fel.

För en bredare jämförelse av Ollama med vLLM, LocalAI, Docker Model Runner och molnalternativ – inklusive när att välja varje för översättning eller andra arbetsbelastningar – se vår LLM-värd: Lokal, självvärd och molninfrastruktur jämförd.

Några användbara länkar