Vergelijking van de vertaalkwaliteit van Hugo-pagina's - LLMs op Ollama

qwen3 8b, 14b en 30b, devstral 24b, mistral small 24b

Inhoud

In deze test ben ik aan het vergelijken hoe verschillende LLMs die op Ollama worden gehost de Hugo-pagina vertalen van Engels naar Duits.

Om te zien hoe Ollama zich vergelijkt met andere lokale en cloud LLM-infrastructuur—vLLM, Docker Model Runner, LocalAI en cloudproviders—kijk dan naar LLM Hosting: Lokale, Self-Hosted & Cloud-infrastructuur vergeleken. Drie pagina’s die ik heb getest, waren over verschillende onderwerpen, hadden wat aardige markdown met een beetje structuur: koppen, lijsten, tabellen, links, enzovoort.

Alle modellen draaiden op een NVidia GPU met 16 GB VRAM, enkele van hen pasten volledig in de VRAM, andere (24b en 30b) niet en verspreidden zich over de CPU.

Toch heb ik die ook getest.

twee pagina’s - vertaling is in gang

De Ollama-modellen die ik heb getest:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Na het uitvoeren van vertaalprompts op al die modellen heb ik een slimme Anthropic-model gevraagd om de kwaliteit van de vertalingen te analyseren, te vergelijken en metingen voor elk model te geven.

Ik heb ook magistral:24b geprobeerd, maar het was aan het denken te veel, dus was het traag en gebruikte het alle context. Dus – niet geschikt voor mijn GPU.

De eenvoudige conclusie: TL;DR

Het beste is Mistral Small 3.1 24b. Het past niet in 16 GB VRAM, dus was het een beetje traag op mijn hardware.

De twee daaropvolgende beste: Qwen 3 14b en Qwen 3 30b. 14b past mooi, maar 30b is een MoE-model, dus is het ook vrij snel. Op mijn hardware was hun snelheid vergelijkbaar.

Test 1: Filosofisch onderwerp

De markdown van de Hugo-websitepagina over een geweldige filosofische onderwerpen – beschrijving en voorbeelden van de Ad Baculum Logische Fout.

index.de.devstral-24b.md - Beoordeling: 7/10 Sterktes:

  • Goede vertaling van technische termen (“argumentum ad baculum Fehlschluss”)
  • Behoudt correcte linkformating en structuur
  • Accurate vertaling van complexe filosofische concepten
  • Goede Duitse grammatica en syntaxis

Zwaktes:

  • “verunstaltet” voor “tainted” is wat onnatuurlijk; “getrübt” zou natuurlijker zijn
  • Sommige zinnen voelen zich iets stijf of te letterlijk aan
  • Kleine stroomproblemen in bepaalde zinnen

index.de.mistral-small3.1-24b.md - Beoordeling: 8.5/10 Sterktes:

  • Zeer natuurlijke Duitse taalstroom
  • Uitstekende vertaling van technische termen
  • Goed behoud van oorspronkelijke betekenis en toon
  • Goede grammatica en zinsstructuur
  • Gebruikt “getrübt” voor “tainted” wat natuurlijker is

Zwaktes:

  • Zeer kleine onovereenkomkigheden in terminologie
  • Af en toe lichte afwijkingen van de bronstructuur

index.de.qwen3-8b.md - Beoordeling: 6.5/10 Sterktes:

  • Accurate vertaling van hoofdconcepten
  • Technische termen worden goed behandeld
  • Behoudt artikelstructuur

Zwaktes:

  • Sommige onnatuurlijke formuleringen (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Minder natuurlijke Duitse stroom in verschillende passages
  • Sommige grammaticale constructies voelen gedwongen
  • Ontbrekend woord in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (grammaticafout)

index.de.qwen3-14b.md - Beoordeling: 8/10 Sterktes:

  • Natuurlijke Duitse taalstroom
  • Uitstekende behandeling van technische terminologie
  • Goed behoud van oorspronkelijke betekenis
  • Goede grammatica en syntaxis
  • Consistente stijl over het hele document

Zwaktes:

  • Kleine variaties in terminologieconsistentie
  • Sommige zinnen konden conciezer zijn

index.de.qwen3-30b-a3b.md - Beoordeling: 7.5/10 Sterktes:

  • Goede overzichtskwaliteit van de vertaling
  • Natuurlijke Duitse uitdrukking
  • Technische termen goed vertaald
  • Behoudt leesbaarheid en stroom
  • Goed behoud van betekenis

Zwaktes:

  • Enkele kleine onovereenkomkigheden in woordkeuze
  • Af en toe iets onnatuurlijke formuleringen
  • Ontbrekend artikel in de laatste paragraaf “über das [Terrain der] Argumentation”

Overzicht van rangschikkingen

Bestand Vertaalkwaliteitscore
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Beste vertaling: index.de.mistral-small3.1-24b.md - Meest natuurlijke Duitse stroom met uitstekende technische nauwkeurigheid

Voorstellen voor verbetering: De Qwen3-8b-versie heeft grammaticale correcties en meer natuurlijke formuleringen nodig, terwijl andere kleine verbeteringen nodig hebben in woordkeuze en consistentie.

Test 2: Vertaling van de pagina over Qwen3 Embedding & Reranker Modellen op Ollama.

Op basis van mijn analyse van de Duitse vertalingen vergeleken met het originele Engelse tekst, zijn hier de kwaliteitsbeoordelingen op een schaal van 1-10:

Bestand LLM Model Vertaalkwaliteitscore Opmerkingen
index.de.devstral-24b.md Devstral 24B 8.5/10 Uitstekende overzichtsvertaling met natuurlijke Duitse stroom, juiste technische terminologie en volledig behoud van Hugo shortcode. Kleine aftrekken voor enkele iets onnatuurlijke formuleringen.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Zeer hoge kwaliteitsvertaling met consistente terminologie, natuurlijke Duitse taal en perfecte formatbehoud. Slight betere stroom dan Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Gemengde kwaliteit - bevat Engels-Duits taalvermenging in inleidende paragraaf (“The [Qwen3 Embedding and Reranker models]” in plaats van volledig Duits). De rest is goed vertaald, maar inconsistent.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Goede Duitse vertaling met juiste technische terminologie en natuurlijke stroom. Goed opgebouwd en consistent over het hele document.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Uitstekende vertaalkwaliteit met zeer natuurlijke Duitse taal, perfecte technische terminologieconsistentie en uitstekende leesbaarheid. Beste overzichtsvertaling.

Belangrijke beoordelingscriteria:

Sterktes die over de vertalingen zijn waargenomen:

  • Behoud van Hugo shortcodes ({ {< ref >}} syntaxis)
  • Accurate technische terminologie
  • Behoud van markdownformating
  • Behoud van tabelstructuur
  • Consistentie in beeldverwijzing

Kwaliteitsverschillen:

  1. Taalconsistentie - Qwen3 8B had problemen met Engels-Duits vermenging
  2. Natuurlijke Duitse stroom - Qwen3 30B bereikte de meest natuurlijke Duitse uitdrukking
  3. Technische precisie - Alle modellen behandelde technische termen goed
  4. Formatbehoud - Alle behielden de Hugostructuur perfect

Rangschikking op kwaliteit:

  1. Qwen3 30B (9.0/10) - Beste overzicht
  2. Mistral Small 3.1 24B (8.7/10) - Zeer sterk
  3. Devstral 24B (8.5/10) - Uitstekend
  4. Qwen3 14B (8.2/10) - Goed
  5. Qwen3 8B (6.5/10) - Voldoende met problemen

De grotere modellen (Qwen3 30B en Mistral Small 3.1 24B) produceerden de hoogste kwaliteitsvertalingen, terwijl de kleinere Qwen3 8B model duidelijke beperkingen toonde in consistentie.

Test 3: Reranking met Ollama en Qwen3 Embedding model - in Go

Het is in wezen een eerdere post op deze website: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Op basis van mijn gedetailleerde analyse van de Duitse vertalingen, is hier de comparatieve beoordeling:

Vertaalkwaliteitsanalyse (1-10 Schaal)

Bestand Model Score Belangrijke beoordeling
index.de.devstral-24b.md DeVistral 24B 9/10 Uitstekend - Meest consistente en professionele
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Zeer goed - Natuurlijk maar kleine onovereenkomkigheden
index.de.qwen3-14b.md Qwen3 14B 7/10 Goed - Vast maar met enkele gemengde elementen
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Voldoende - Bevat onvertaalde Engelse tekst
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Slecht - Meerdere vertaalproblemen

Gedetailleerde vergelijkende analyse:

🥇 DeVistral 24B (9/10) - Winnaar Sterktes:

  • Technische precisie: Gebruikt “ollama API-Fehler” (klein, meer natuurlijk)
  • Consistente vertaling: “handelt mit parallelen Anfragen” (gevorderde formulering)
  • Professionele kwaliteit: Volledige Duitse vertaling over het hele document
  • Format: Perfect behoud van markdownstructuur

Kleine problemen: Zeer weinig, vooral stijlstijlvoorkeuren

🥈 Mistral Small 3.1 24B (8.5/10) Sterktes:

  • Natuurlijke Duitse stroom
  • Goede technische terminologie: “Ollama-API-Fehler” (gehyphen, formeel stijl)
  • Consistente “verarbeitet parallele Anfragen”

Problemen:

  • Slight minder geavanceerde formuleringen in enkele technische contexten
  • Kleine formatvariaties

🥉 Qwen3 14B (7/10) Sterktes:

  • Algemene betekenisbehoud
  • Goede Duitse grammaticastuctuur

Problemen:

  • Enkele onnatuurlijke constructies
  • Gemengde kwaliteit in technische terminologie
  • Bevat “```” aan het begin en formatproblemen

Qwen3 30B (6.5/10) Kritiek nadeel:

  • Bevat onvertaalde Engelse tekst: “This little” verschijnt direct in Duitse tekst
  • Hoewel groter, toont het model vertaalonovereenkomkigheden
  • Technische nauwkeurigheid is aanwezig, maar levering is defect

Qwen3 8B (5.5/10) Belangrijke problemen:

  • Onvertaalde secties: “This little” blijft in Engels
  • Inconsistente terminologie: Gebruikt “RANGORDNUNG” versus standaard “RANGIERUNG”
  • Slechte stroom: Minder natuurlijke Duitse constructies
  • Toont duidelijke beperkingen van het kleinere model

Belangrijke verschillen gevonden:

  1. API-Foutvertaling:

    • DeVistral: ollama API-Fehler (natuurlijk, klein)
    • Andere: Ollama-API-Fehler (formeel, gehyphen)
  2. Parallelle aanvragen:

    • DeVistral: “handelt mit parallelen Anfragen” (gevorderd)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standaard)
    • Qwen3-8B: “behandelt parallele Anfragen” (minder nauwkeurig)
  3. Sectiekoppen:

    • Meeste: “RANGIERUNG NACH ÄHNLICHKEIT” (standaard)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (onnatuurlijk)
  4. Engelse vervuiling:

    • Qwen3-30B & Qwen3-8B: Laat “This little” onvertaald
    • Andere: Correct vertalen naar “Dieses kleine”

Winnaar: DeVistral 24B - Toont de meest consistente professionele Duitse vertaling met geavanceerde technische terminologie en volledige taalconversie.


Hehe DeVistral :). Maar dat is een ander LLM-fout.

Voor een breder overzicht van Ollama vergeleken met vLLM, LocalAI, Docker Model Runner en cloudopties—met inbegrip van wanneer elk te kiezen is voor vertaling of andere taken—zie onze LLM Hosting: Lokale, Self-Hosted & Cloud-infrastructuur vergeleken.