Porównanie jakości tłumaczenia stron w Hugo – LLMs na Ollama
qwen3 8b, 14b i 30b, devstral 24b, mistral small 24b
W tym teście porównuję, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo z języka angielskiego na niemiecki.
Aby zobaczyć, jak Ollama porównuje się z innymi lokalnymi i chmurowymi infrastrukturami LLM — vLLM, Docker Model Runner, LocalAI i dostawcami chmurowymi — sprawdź Hosting LLM: Lokalny, Samoobsługowy i Chmurowa Infrastruktura Porównana.
Trzy strony, które przetestowałem, dotyczyły różnych tematów, miały pewne ładne znaczniki markdown z pewną strukturą: nagłówki, listy, tabele, linki itp.
Wszystkie te modele działały na GPU NVidia z 16 GB VRAM, niektóre z nich całkowicie mieściły się w VRAM, inne (24b i 30b) nie i rozdzielone były na CPU.
Niektóre z nich również przetestowałem.

Modele Ollama, które przetestowałem:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Po uruchomieniu promptów tłumaczenia na wszystkich tych modelach zapytałem inteligentny model Anthropic, aby przeanalizował jakość tłumaczeń, porównał je i podał metryki dla każdego modelu.
Również spróbowałem magistral:24b, ale był zbyt długo myślał, więc był wolny i zużywał cały kontekst. Więc — nie dla mojej GPU.
Prosty wniosek: TL;DR
Najlepszy to Mistral Small 3.1 24b. Nie mieści się w 16 GB VRAM, więc był trochę wolniejszy na moim sprzęcie.
Następne dwa najlepsze: Qwen 3 14b i Qwen 3 30b. 14b dobrze mieści się, ale 30b to model MoE, więc również dość szybki. Na moim sprzęcie ich szybkość była podobna.
Test 1: Temat filozoficzny
Markdown strony opartej na Hugo na pewnym wspaniałym temacie filozoficznym — opis i przykłady błędu logicznego Ad Baculum.
index.de.devstral-24b.md - Ocena: 7/10 Zalety:
- Dobre tłumaczenie terminologii technicznej (“argumentum ad baculum Fehlschluss”)
- Utrzymanie poprawnego formatowania i struktury linków
- Dokładne tłumaczenie złożonych koncepcji filozoficznych
- Poprawna gramatyka i składnia niemiecka
Wady:
- “verunstaltet” dla “tainted” jest trochę nieprzyjemne; “getrübt” byłoby bardziej naturalne
- Niektóre frazy wydają się lekko stresowane lub zbyt dosłowne
- Małe problemy z przepływem w niektórych zdaniach
index.de.mistral-small3.1-24b.md - Ocena: 8.5/10 Zalety:
- Bardzo naturalny przepływ języka niemieckiego
- Wysokiej jakości tłumaczenie terminologii technicznej
- Dobry utrzymanie oryginalnego znaczenia i tonu
- Poprawna gramatyka i struktura zdania
- Używa “getrübt” dla “tainted”, co jest bardziej naturalne
Wady:
- Bardzo drobne niezgodności w terminologii
- Okazjonalne lekkie odchody od struktury źródła
index.de.qwen3-8b.md - Ocena: 6.5/10 Zalety:
- Dokładne tłumaczenie głównych koncepcji
- Poprawne przetwarzanie terminologii technicznej
- Utrzymanie struktury artykułu
Wady:
- Niektóre nieprzyjemne formułowania (“kann sich auch in alltäglichen Interaktionen breiten”)
- Mniej naturalny przepływ języka niemieckiego w kilku pasażach
- Niektóre konstrukcje gramatyczne wydają się zmuszone
- Brak słowa w “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (błąd gramatyczny)
index.de.qwen3-14b.md - Ocena: 8/10 Zalety:
- Naturalny przepływ języka niemieckiego
- Wysokiej jakości przetwarzanie terminologii technicznej
- Dobry utrzymanie oryginalnego znaczenia
- Poprawna gramatyka i składnia
- Spójny styl przez całość
Wady:
- Drobną wariację w spójności terminologii
- Niektóre zdania mogłyby być bardziej koncypowane
index.de.qwen3-30b-a3b.md - Ocena: 7.5/10 Zalety:
- Dobra ogólna jakość tłumaczenia
- Naturalne wyrażenie języka niemieckiego
- Dobrze przetłumaczone terminy techniczne
- Utrzymanie czytelności i przepływu
- Dobrze utrzymane znaczenie
Wady:
- Niektóre drobne niezgodności w wyborze słów
- Okazjonalnie lekko nieprzyjemne formułowania
- Brak artkułu w ostatnim akapicie “über das [Terrain der] Argumentation”
Ranking Ogólny
| Plik | Ocena Jakości Tłumaczenia |
|---|---|
| index.de.mistral-small3.1-24b.md | 8.5/10 |
| index.de.qwen3-14b.md | 8.0/10 |
| index.de.qwen3-30b-a3b.md | 7.5/10 |
| index.de.devstral-24b.md | 7.0/10 |
| index.de.qwen3-8b.md | 6.5/10 |
Najlepsze tłumaczenie: index.de.mistral-small3.1-24b.md - Najbardziej naturalny przepływ języka niemieckiego z wspaniałą techniczną dokładnością
Obszary Poprawy: Wersja Qwen3-8b wymaga poprawek gramatycznych i bardziej naturalnego formułowania, podczas gdy inne wymagają głównie drobnych poprawek w wyborze słów i spójności.
Test 2: Tłumaczenie strony o modelach Qwen3 Embedding & Reranker na Ollama.
Na podstawie mojej analizy niemieckich tłumaczeń w porównaniu do oryginalnego tekstu angielskiego, oto oceny jakości na skali od 1 do 10:
| Plik | Model LLM | Ocena Jakości Tłumaczenia | Komentarze |
|---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Wysoka ogólna jakość tłumaczenia z naturalnym przepływem języka niemieckiego, poprawną terminologią techniczną i pełnym zachowaniem skrótu Hugo. Drobną ocenę odjęto z powodu niektórych lekko nieprzyjemnych formułowań. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Bardzo wysoka jakość tłumaczenia z spójną terminologią, naturalnym językiem niemieckim i idealnym zachowaniem formatowania. Lekko lepszy przepływ niż Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Mieszana jakość - zawiera mieszankę języka angielskiego i niemieckiego w wstępnej sekcji (“The [Qwen3 Embedding and Reranker models]” zamiast pełnego niemieckiego). Reszta dobrze przetłumaczona, ale niezgodna. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Dobre tłumaczenie na język niemiecki z poprawną terminologią techniczną i naturalnym przepływem. Dobrze zbudowane i spójne przez całość. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Wysoka jakość tłumaczenia z bardzo naturalnym językiem niemieckim, idealną spójnością terminologii technicznej i wspaniałą czytelnością. Najlepsze tłumaczenie ogólnie. |
Główne Kryteria Oceny:
Zauważone zalety w tłumaczeniach:
- Zachowanie skrótu Hugo (
{ {< ref >}}składnia) - Dokładność terminologii technicznej
- Utrzymanie formatowania markdown
- Zachowanie struktury tabel
- Spójność odniesień do obrazów
Różnice jakościowe:
- Spójność językowa - Qwen3 8B miał problemy z mieszaniem języka angielskiego i niemieckiego
- Naturalny przepływ języka niemieckiego - Qwen3 30B osiągnął najbardziej naturalne wyrażenie języka niemieckiego
- Precyzja techniczna - Wszystkie modele dobrze radziły sobie z terminologią techniczną
- Zachowanie formatowania - Wszystkie zachowały strukturę Hugo idealnie
Ranking według jakości:
- Qwen3 30B (9.0/10) - Najlepszy ogólnie
- Mistral Small 3.1 24B (8.7/10) - Bardzo silny
- Devstral 24B (8.5/10) - Wspaniały
- Qwen3 14B (8.2/10) - Dobry
- Qwen3 8B (6.5/10) - Dostateczny z problemami
Większe modele (Qwen3 30B i Mistral Small 3.1 24B) wygenerowały najwyższej jakości tłumaczenia, podczas gdy mniejszy model Qwen3 8B wykazał wyraźne ograniczenia w spójności.
Test 3: Ponowne rangowanie z Ollama i modelem Qwen3 Embedding - w Go
Jest to w zasadzie poprzedni wpis na tym blogu: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.
Na podstawie mojej szczegółowej analizy niemieckich tłumaczeń, oto porównawcza ocena:
Analiza Jakości Tłumaczenia (Skala 1-10)
| Plik | Model | Wynik | Kluczowa Ocena |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | Wspaniały - Najbardziej spójny i profesjonalny |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Bardzo dobre - Naturalny, ale drobne niezgodności |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Dobre - Solidne z pewnymi elementami mieszanki |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Średnie - Zawiera nieprzetłumaczone fragmenty angielskie |
| index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Ślepe - Wiele błędów tłumaczenia |
Szczegółowa Porównawcza Analiza:
🥇 DeVistral 24B (9/10) - Zwycięzca Zalety:
- Precyzja techniczna: Używa “ollama API-Fehler” (małe litery, bardziej naturalne)
- Spójne tłumaczenie: “handelt mit parallelen Anfragen” (bardziej zaawansowana formułowanie)
- Profesjonalna jakość: Pełne tłumaczenie na język niemiecki przez całość
- Formatowanie: Idealne zachowanie struktury markdown
Drobnego problemu: Bardzo mało, głównie preferencje stylistyczne
🥈 Mistral Small 3.1 24B (8.5/10) Zalety:
- Naturalny przepływ języka niemieckiego
- Dobra terminologia techniczna: “Ollama-API-Fehler” (łączony, styl formalny)
- Spójne “verarbeitet parallele Anfragen”
Problemy:
- Słabsze formułowanie w niektórych kontekstach technicznych
- Drobną wariację w formacie
🥉 Qwen3 14B (7/10) Zalety:
- Ogólnie dokładne zachowanie znaczenia
- Poprawna struktura gramatyczna języka niemieckiego
Problemy:
- Niektóre nieprzyjemne konstrukcje
- Zmieszana jakość w terminologii technicznej
- Zawiera “```” na początku i problemy z formatowaniem
Qwen3 30B (6.5/10) Krytyczny wad:
- Zawiera nieprzetłumaczone fragmenty angielskie: “This little” pojawia się bezpośrednio w tekście niemieckim
- Pomimo większego rozmiaru modelu, pokazuje niezgodności w tłumaczeniu
- Precyzja techniczna jest obecna, ale dostarczanie jest wadliwe
Qwen3 8B (5.5/10) Główne problemy:
- Nieprzetłumaczone sekcje: “This little” pozostaje w języku angielskim
- Niezgodność terminologii: Używa “RANGORDNUNG” vs standard “RANGIERUNG”
- Słaby przepływ: Mniej naturalne konstrukcje języka niemieckiego
- Pokazuje wyraźne ograniczenia mniejszego modelu
Znalezione kluczowe różnice:
-
Tłumaczenie błędu API:
- DeVistral:
ollama API-Fehler(naturalny, małe litery) - Pozostałe:
Ollama-API-Fehler(formalny, łączony)
- DeVistral:
-
Zapytania równoległe:
- DeVistral: “handelt mit parallelen Anfragen” (zaawansowane)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
- Qwen3-8B: “behandelt parallele Anfragen” (mniej precyzyjne)
-
Nagłówki sekcji:
- Większość: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (nieprzyjemne)
-
Zanieczyszczenie językiem angielskim:
- Qwen3-30B & Qwen3-8B: Pozostawiają “This little” bez tłumaczenia
- Pozostałe: Poprawnie tłumaczą na “Dieses kleine”
Zwycięzca: DeVistral 24B - Pokazuje najbardziej spójną profesjonalną jakość tłumaczenia na język niemiecki z zaawansowaną terminologią techniczną i pełnym przełożeniem języka.
Hehe DeVistral :). Ale to błąd innego LLM.
Aby uzyskać szersze porównanie Ollama z vLLM, LocalAI, Docker Model Runner i opcjami chmurowymi — w tym kiedy wybrać każde z nich do tłumaczenia lub innych obciążeń — zobacz nasz Hosting LLM: Lokalny, Samoobsługowy i Chmurowa Infrastruktura Porównana.