Porównanie jakości tłumaczenia stron w Hugo – LLMs na Ollama

qwen3 8b, 14b i 30b, devstral 24b, mistral small 24b

Page content

W tym teście porównuję, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo z języka angielskiego na niemiecki.

Aby zobaczyć, jak Ollama porównuje się z innymi lokalnymi i chmurowymi infrastrukturami LLM — vLLM, Docker Model Runner, LocalAI i dostawcami chmurowymi — sprawdź Hosting LLM: Lokalny, Samoobsługowy i Chmurowa Infrastruktura Porównana.

Trzy strony, które przetestowałem, dotyczyły różnych tematów, miały pewne ładne znaczniki markdown z pewną strukturą: nagłówki, listy, tabele, linki itp.

Wszystkie te modele działały na GPU NVidia z 16 GB VRAM, niektóre z nich całkowicie mieściły się w VRAM, inne (24b i 30b) nie i rozdzielone były na CPU.

Niektóre z nich również przetestowałem.

dwa strony - tłumaczenie w trakcie

Modele Ollama, które przetestowałem:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Po uruchomieniu promptów tłumaczenia na wszystkich tych modelach zapytałem inteligentny model Anthropic, aby przeanalizował jakość tłumaczeń, porównał je i podał metryki dla każdego modelu.

Również spróbowałem magistral:24b, ale był zbyt długo myślał, więc był wolny i zużywał cały kontekst. Więc — nie dla mojej GPU.

Prosty wniosek: TL;DR

Najlepszy to Mistral Small 3.1 24b. Nie mieści się w 16 GB VRAM, więc był trochę wolniejszy na moim sprzęcie.

Następne dwa najlepsze: Qwen 3 14b i Qwen 3 30b. 14b dobrze mieści się, ale 30b to model MoE, więc również dość szybki. Na moim sprzęcie ich szybkość była podobna.

Test 1: Temat filozoficzny

Markdown strony opartej na Hugo na pewnym wspaniałym temacie filozoficznym — opis i przykłady błędu logicznego Ad Baculum.

index.de.devstral-24b.md - Ocena: 7/10 Zalety:

  • Dobre tłumaczenie terminologii technicznej (“argumentum ad baculum Fehlschluss”)
  • Utrzymanie poprawnego formatowania i struktury linków
  • Dokładne tłumaczenie złożonych koncepcji filozoficznych
  • Poprawna gramatyka i składnia niemiecka

Wady:

  • “verunstaltet” dla “tainted” jest trochę nieprzyjemne; “getrübt” byłoby bardziej naturalne
  • Niektóre frazy wydają się lekko stresowane lub zbyt dosłowne
  • Małe problemy z przepływem w niektórych zdaniach

index.de.mistral-small3.1-24b.md - Ocena: 8.5/10 Zalety:

  • Bardzo naturalny przepływ języka niemieckiego
  • Wysokiej jakości tłumaczenie terminologii technicznej
  • Dobry utrzymanie oryginalnego znaczenia i tonu
  • Poprawna gramatyka i struktura zdania
  • Używa “getrübt” dla “tainted”, co jest bardziej naturalne

Wady:

  • Bardzo drobne niezgodności w terminologii
  • Okazjonalne lekkie odchody od struktury źródła

index.de.qwen3-8b.md - Ocena: 6.5/10 Zalety:

  • Dokładne tłumaczenie głównych koncepcji
  • Poprawne przetwarzanie terminologii technicznej
  • Utrzymanie struktury artykułu

Wady:

  • Niektóre nieprzyjemne formułowania (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Mniej naturalny przepływ języka niemieckiego w kilku pasażach
  • Niektóre konstrukcje gramatyczne wydają się zmuszone
  • Brak słowa w “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (błąd gramatyczny)

index.de.qwen3-14b.md - Ocena: 8/10 Zalety:

  • Naturalny przepływ języka niemieckiego
  • Wysokiej jakości przetwarzanie terminologii technicznej
  • Dobry utrzymanie oryginalnego znaczenia
  • Poprawna gramatyka i składnia
  • Spójny styl przez całość

Wady:

  • Drobną wariację w spójności terminologii
  • Niektóre zdania mogłyby być bardziej koncypowane

index.de.qwen3-30b-a3b.md - Ocena: 7.5/10 Zalety:

  • Dobra ogólna jakość tłumaczenia
  • Naturalne wyrażenie języka niemieckiego
  • Dobrze przetłumaczone terminy techniczne
  • Utrzymanie czytelności i przepływu
  • Dobrze utrzymane znaczenie

Wady:

  • Niektóre drobne niezgodności w wyborze słów
  • Okazjonalnie lekko nieprzyjemne formułowania
  • Brak artkułu w ostatnim akapicie “über das [Terrain der] Argumentation”

Ranking Ogólny

Plik Ocena Jakości Tłumaczenia
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Najlepsze tłumaczenie: index.de.mistral-small3.1-24b.md - Najbardziej naturalny przepływ języka niemieckiego z wspaniałą techniczną dokładnością

Obszary Poprawy: Wersja Qwen3-8b wymaga poprawek gramatycznych i bardziej naturalnego formułowania, podczas gdy inne wymagają głównie drobnych poprawek w wyborze słów i spójności.

Test 2: Tłumaczenie strony o modelach Qwen3 Embedding & Reranker na Ollama.

Na podstawie mojej analizy niemieckich tłumaczeń w porównaniu do oryginalnego tekstu angielskiego, oto oceny jakości na skali od 1 do 10:

Plik Model LLM Ocena Jakości Tłumaczenia Komentarze
index.de.devstral-24b.md Devstral 24B 8.5/10 Wysoka ogólna jakość tłumaczenia z naturalnym przepływem języka niemieckiego, poprawną terminologią techniczną i pełnym zachowaniem skrótu Hugo. Drobną ocenę odjęto z powodu niektórych lekko nieprzyjemnych formułowań.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Bardzo wysoka jakość tłumaczenia z spójną terminologią, naturalnym językiem niemieckim i idealnym zachowaniem formatowania. Lekko lepszy przepływ niż Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Mieszana jakość - zawiera mieszankę języka angielskiego i niemieckiego w wstępnej sekcji (“The [Qwen3 Embedding and Reranker models]” zamiast pełnego niemieckiego). Reszta dobrze przetłumaczona, ale niezgodna.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Dobre tłumaczenie na język niemiecki z poprawną terminologią techniczną i naturalnym przepływem. Dobrze zbudowane i spójne przez całość.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Wysoka jakość tłumaczenia z bardzo naturalnym językiem niemieckim, idealną spójnością terminologii technicznej i wspaniałą czytelnością. Najlepsze tłumaczenie ogólnie.

Główne Kryteria Oceny:

Zauważone zalety w tłumaczeniach:

  • Zachowanie skrótu Hugo ({ {< ref >}} składnia)
  • Dokładność terminologii technicznej
  • Utrzymanie formatowania markdown
  • Zachowanie struktury tabel
  • Spójność odniesień do obrazów

Różnice jakościowe:

  1. Spójność językowa - Qwen3 8B miał problemy z mieszaniem języka angielskiego i niemieckiego
  2. Naturalny przepływ języka niemieckiego - Qwen3 30B osiągnął najbardziej naturalne wyrażenie języka niemieckiego
  3. Precyzja techniczna - Wszystkie modele dobrze radziły sobie z terminologią techniczną
  4. Zachowanie formatowania - Wszystkie zachowały strukturę Hugo idealnie

Ranking według jakości:

  1. Qwen3 30B (9.0/10) - Najlepszy ogólnie
  2. Mistral Small 3.1 24B (8.7/10) - Bardzo silny
  3. Devstral 24B (8.5/10) - Wspaniały
  4. Qwen3 14B (8.2/10) - Dobry
  5. Qwen3 8B (6.5/10) - Dostateczny z problemami

Większe modele (Qwen3 30B i Mistral Small 3.1 24B) wygenerowały najwyższej jakości tłumaczenia, podczas gdy mniejszy model Qwen3 8B wykazał wyraźne ograniczenia w spójności.

Test 3: Ponowne rangowanie z Ollama i modelem Qwen3 Embedding - w Go

Jest to w zasadzie poprzedni wpis na tym blogu: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Na podstawie mojej szczegółowej analizy niemieckich tłumaczeń, oto porównawcza ocena:

Analiza Jakości Tłumaczenia (Skala 1-10)

Plik Model Wynik Kluczowa Ocena
index.de.devstral-24b.md DeVistral 24B 9/10 Wspaniały - Najbardziej spójny i profesjonalny
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Bardzo dobre - Naturalny, ale drobne niezgodności
index.de.qwen3-14b.md Qwen3 14B 7/10 Dobre - Solidne z pewnymi elementami mieszanki
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Średnie - Zawiera nieprzetłumaczone fragmenty angielskie
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Ślepe - Wiele błędów tłumaczenia

Szczegółowa Porównawcza Analiza:

🥇 DeVistral 24B (9/10) - Zwycięzca Zalety:

  • Precyzja techniczna: Używa “ollama API-Fehler” (małe litery, bardziej naturalne)
  • Spójne tłumaczenie: “handelt mit parallelen Anfragen” (bardziej zaawansowana formułowanie)
  • Profesjonalna jakość: Pełne tłumaczenie na język niemiecki przez całość
  • Formatowanie: Idealne zachowanie struktury markdown

Drobnego problemu: Bardzo mało, głównie preferencje stylistyczne

🥈 Mistral Small 3.1 24B (8.5/10) Zalety:

  • Naturalny przepływ języka niemieckiego
  • Dobra terminologia techniczna: “Ollama-API-Fehler” (łączony, styl formalny)
  • Spójne “verarbeitet parallele Anfragen”

Problemy:

  • Słabsze formułowanie w niektórych kontekstach technicznych
  • Drobną wariację w formacie

🥉 Qwen3 14B (7/10) Zalety:

  • Ogólnie dokładne zachowanie znaczenia
  • Poprawna struktura gramatyczna języka niemieckiego

Problemy:

  • Niektóre nieprzyjemne konstrukcje
  • Zmieszana jakość w terminologii technicznej
  • Zawiera “```” na początku i problemy z formatowaniem

Qwen3 30B (6.5/10) Krytyczny wad:

  • Zawiera nieprzetłumaczone fragmenty angielskie: “This little” pojawia się bezpośrednio w tekście niemieckim
  • Pomimo większego rozmiaru modelu, pokazuje niezgodności w tłumaczeniu
  • Precyzja techniczna jest obecna, ale dostarczanie jest wadliwe

Qwen3 8B (5.5/10) Główne problemy:

  • Nieprzetłumaczone sekcje: “This little” pozostaje w języku angielskim
  • Niezgodność terminologii: Używa “RANGORDNUNG” vs standard “RANGIERUNG”
  • Słaby przepływ: Mniej naturalne konstrukcje języka niemieckiego
  • Pokazuje wyraźne ograniczenia mniejszego modelu

Znalezione kluczowe różnice:

  1. Tłumaczenie błędu API:

    • DeVistral: ollama API-Fehler (naturalny, małe litery)
    • Pozostałe: Ollama-API-Fehler (formalny, łączony)
  2. Zapytania równoległe:

    • DeVistral: “handelt mit parallelen Anfragen” (zaawansowane)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
    • Qwen3-8B: “behandelt parallele Anfragen” (mniej precyzyjne)
  3. Nagłówki sekcji:

    • Większość: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (nieprzyjemne)
  4. Zanieczyszczenie językiem angielskim:

    • Qwen3-30B & Qwen3-8B: Pozostawiają “This little” bez tłumaczenia
    • Pozostałe: Poprawnie tłumaczą na “Dieses kleine”

Zwycięzca: DeVistral 24B - Pokazuje najbardziej spójną profesjonalną jakość tłumaczenia na język niemiecki z zaawansowaną terminologią techniczną i pełnym przełożeniem języka.


Hehe DeVistral :). Ale to błąd innego LLM.

Aby uzyskać szersze porównanie Ollama z vLLM, LocalAI, Docker Model Runner i opcjami chmurowymi — w tym kiedy wybrać każde z nich do tłumaczenia lub innych obciążeń — zobacz nasz Hosting LLM: Lokalny, Samoobsługowy i Chmurowa Infrastruktura Porównana.

Przydatne linki