Który jest najlepszym LLM do tłumaczenia tekstu na OLLAMA?

Najlepszy model LLM do tłumaczenia tekstu na OLLAMA to Mistral small 3.1 24b.

Czy mogę uruchomić te modele tłumaczenia na innych backendach niż Ollama?

Tak. Przewodnik po hostowaniu LLM porównuje Ollama z vLLM, LocalAI, Docker Model Runner i chmurowymi API, abyś mógł wybrać odpowiedni backend dla swojej konfiguracji.

Porównanie jakości tłumaczenia stron w Hugo – LLMs na Ollama

Q: Gdzie mogę porównać Ollama z innymi opcjami hostingu LLM?

Nasz przegląd hostingu LLM porównuje Ollama z vLLM, Docker Model Runner, LocalAI i dostawcami chmurowymi, w tym kosztami i kompromisami infrastrukturalnymi.

qwen3 8b, 14b i 30b, devstral 24b, mistral small 24b

Page content

W tym teście porównuję, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo z języka angielskiego na niemiecki.

Aby zobaczyć, jak Ollama porównuje się z innymi lokalnymi i chmurowymi infrastrukturami LLM — vLLM, Docker Model Runner, LocalAI i dostawcami chmurowymi — sprawdź Hosting LLM: Lokalny, Samoobsługowy i Chmurowa Infrastruktura Porównana.

Trzy strony, które przetestowałem, dotyczyły różnych tematów, miały pewne ładne znaczniki markdown z pewną strukturą: nagłówki, listy, tabele, linki itp.

Wszystkie te modele działały na GPU NVidia z 16 GB VRAM, niektóre z nich całkowicie mieściły się w VRAM, inne (24b i 30b) nie i rozdzielone były na CPU.

Niektóre z nich również przetestowałem.

dwa strony - tłumaczenie w trakcie

Modele Ollama, które przetestowałem:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Po uruchomieniu promptów tłumaczenia na wszystkich tych modelach zapytałem inteligentny model Anthropic, aby przeanalizował jakość tłumaczeń, porównał je i podał metryki dla każdego modelu.

Również spróbowałem magistral:24b, ale był zbyt długo myślał, więc był wolny i zużywał cały kontekst. Więc — nie dla mojej GPU.

Prosty wniosek: TL;DR

Najlepszy to Mistral Small 3.1 24b. Nie mieści się w 16 GB VRAM, więc był trochę wolniejszy na moim sprzęcie.

Następne dwa najlepsze: Qwen 3 14b i Qwen 3 30b. 14b dobrze mieści się, ale 30b to model MoE, więc również dość szybki. Na moim sprzęcie ich szybkość była podobna.

Test 1: Temat filozoficzny

Markdown strony opartej na Hugo na pewnym wspaniałym temacie filozoficznym — opis i przykłady błędu logicznego Ad Baculum.

index.de.devstral-24b.md - Ocena: 7/10 Zalety:

Dobre tłumaczenie terminologii technicznej (“argumentum ad baculum Fehlschluss”)
Utrzymanie poprawnego formatowania i struktury linków
Dokładne tłumaczenie złożonych koncepcji filozoficznych
Poprawna gramatyka i składnia niemiecka

Wady:

“verunstaltet” dla “tainted” jest trochę nieprzyjemne; “getrübt” byłoby bardziej naturalne
Niektóre frazy wydają się lekko stresowane lub zbyt dosłowne
Małe problemy z przepływem w niektórych zdaniach

index.de.mistral-small3.1-24b.md - Ocena: 8.5/10 Zalety:

Bardzo naturalny przepływ języka niemieckiego
Wysokiej jakości tłumaczenie terminologii technicznej
Dobry utrzymanie oryginalnego znaczenia i tonu
Poprawna gramatyka i struktura zdania
Używa “getrübt” dla “tainted”, co jest bardziej naturalne

Wady:

Bardzo drobne niezgodności w terminologii
Okazjonalne lekkie odchody od struktury źródła

index.de.qwen3-8b.md - Ocena: 6.5/10 Zalety:

Dokładne tłumaczenie głównych koncepcji
Poprawne przetwarzanie terminologii technicznej
Utrzymanie struktury artykułu

Wady:

Niektóre nieprzyjemne formułowania (“kann sich auch in alltäglichen Interaktionen breiten”)
Mniej naturalny przepływ języka niemieckiego w kilku pasażach
Niektóre konstrukcje gramatyczne wydają się zmuszone
Brak słowa w “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (błąd gramatyczny)

index.de.qwen3-14b.md - Ocena: 8/10 Zalety:

Naturalny przepływ języka niemieckiego
Wysokiej jakości przetwarzanie terminologii technicznej
Dobry utrzymanie oryginalnego znaczenia
Poprawna gramatyka i składnia
Spójny styl przez całość

Wady:

Drobną wariację w spójności terminologii
Niektóre zdania mogłyby być bardziej koncypowane

index.de.qwen3-30b-a3b.md - Ocena: 7.5/10 Zalety:

Dobra ogólna jakość tłumaczenia
Naturalne wyrażenie języka niemieckiego
Dobrze przetłumaczone terminy techniczne
Utrzymanie czytelności i przepływu
Dobrze utrzymane znaczenie

Wady:

Niektóre drobne niezgodności w wyborze słów
Okazjonalnie lekko nieprzyjemne formułowania
Brak artkułu w ostatnim akapicie “über das [Terrain der] Argumentation”

Ranking Ogólny

Plik	Ocena Jakości Tłumaczenia
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

Najlepsze tłumaczenie: index.de.mistral-small3.1-24b.md - Najbardziej naturalny przepływ języka niemieckiego z wspaniałą techniczną dokładnością

Obszary Poprawy: Wersja Qwen3-8b wymaga poprawek gramatycznych i bardziej naturalnego formułowania, podczas gdy inne wymagają głównie drobnych poprawek w wyborze słów i spójności.

Test 2: Tłumaczenie strony o modelach Qwen3 Embedding & Reranker na Ollama.

Na podstawie mojej analizy niemieckich tłumaczeń w porównaniu do oryginalnego tekstu angielskiego, oto oceny jakości na skali od 1 do 10:

Plik	Model LLM	Ocena Jakości Tłumaczenia	Komentarze
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	Wysoka ogólna jakość tłumaczenia z naturalnym przepływem języka niemieckiego, poprawną terminologią techniczną i pełnym zachowaniem skrótu Hugo. Drobną ocenę odjęto z powodu niektórych lekko nieprzyjemnych formułowań.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	Bardzo wysoka jakość tłumaczenia z spójną terminologią, naturalnym językiem niemieckim i idealnym zachowaniem formatowania. Lekko lepszy przepływ niż Devstral.
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	Mieszana jakość - zawiera mieszankę języka angielskiego i niemieckiego w wstępnej sekcji (“The [Qwen3 Embedding and Reranker models]” zamiast pełnego niemieckiego). Reszta dobrze przetłumaczona, ale niezgodna.
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	Dobre tłumaczenie na język niemiecki z poprawną terminologią techniczną i naturalnym przepływem. Dobrze zbudowane i spójne przez całość.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	Wysoka jakość tłumaczenia z bardzo naturalnym językiem niemieckim, idealną spójnością terminologii technicznej i wspaniałą czytelnością. Najlepsze tłumaczenie ogólnie.

Główne Kryteria Oceny:

Zauważone zalety w tłumaczeniach:

Zachowanie skrótu Hugo ({ {< ref >}} składnia)
Dokładność terminologii technicznej
Utrzymanie formatowania markdown
Zachowanie struktury tabel
Spójność odniesień do obrazów

Różnice jakościowe:

Spójność językowa - Qwen3 8B miał problemy z mieszaniem języka angielskiego i niemieckiego
Naturalny przepływ języka niemieckiego - Qwen3 30B osiągnął najbardziej naturalne wyrażenie języka niemieckiego
Precyzja techniczna - Wszystkie modele dobrze radziły sobie z terminologią techniczną
Zachowanie formatowania - Wszystkie zachowały strukturę Hugo idealnie

Ranking według jakości:

Qwen3 30B (9.0/10) - Najlepszy ogólnie
Mistral Small 3.1 24B (8.7/10) - Bardzo silny
Devstral 24B (8.5/10) - Wspaniały
Qwen3 14B (8.2/10) - Dobry
Qwen3 8B (6.5/10) - Dostateczny z problemami

Większe modele (Qwen3 30B i Mistral Small 3.1 24B) wygenerowały najwyższej jakości tłumaczenia, podczas gdy mniejszy model Qwen3 8B wykazał wyraźne ograniczenia w spójności.

Test 3: Ponowne rangowanie z Ollama i modelem Qwen3 Embedding - w Go

Jest to w zasadzie poprzedni wpis na tym blogu: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Na podstawie mojej szczegółowej analizy niemieckich tłumaczeń, oto porównawcza ocena:

Analiza Jakości Tłumaczenia (Skala 1-10)

Plik	Model	Wynik	Kluczowa Ocena
index.de.devstral-24b.md	DeVistral 24B	9/10	Wspaniały - Najbardziej spójny i profesjonalny
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	Bardzo dobre - Naturalny, ale drobne niezgodności
index.de.qwen3-14b.md	Qwen3 14B	7/10	Dobre - Solidne z pewnymi elementami mieszanki
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	Średnie - Zawiera nieprzetłumaczone fragmenty angielskie
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	Ślepe - Wiele błędów tłumaczenia

Szczegółowa Porównawcza Analiza:

🥇 DeVistral 24B (9/10) - Zwycięzca Zalety:

Precyzja techniczna: Używa “ollama API-Fehler” (małe litery, bardziej naturalne)
Spójne tłumaczenie: “handelt mit parallelen Anfragen” (bardziej zaawansowana formułowanie)
Profesjonalna jakość: Pełne tłumaczenie na język niemiecki przez całość
Formatowanie: Idealne zachowanie struktury markdown

Drobnego problemu: Bardzo mało, głównie preferencje stylistyczne

🥈 Mistral Small 3.1 24B (8.5/10) Zalety:

Naturalny przepływ języka niemieckiego
Dobra terminologia techniczna: “Ollama-API-Fehler” (łączony, styl formalny)
Spójne “verarbeitet parallele Anfragen”

Problemy:

Słabsze formułowanie w niektórych kontekstach technicznych
Drobną wariację w formacie

🥉 Qwen3 14B (7/10) Zalety:

Ogólnie dokładne zachowanie znaczenia
Poprawna struktura gramatyczna języka niemieckiego

Problemy:

Niektóre nieprzyjemne konstrukcje
Zmieszana jakość w terminologii technicznej
Zawiera “```” na początku i problemy z formatowaniem

Qwen3 30B (6.5/10) Krytyczny wad:

Zawiera nieprzetłumaczone fragmenty angielskie: “This little” pojawia się bezpośrednio w tekście niemieckim
Pomimo większego rozmiaru modelu, pokazuje niezgodności w tłumaczeniu
Precyzja techniczna jest obecna, ale dostarczanie jest wadliwe

Qwen3 8B (5.5/10) Główne problemy:

Nieprzetłumaczone sekcje: “This little” pozostaje w języku angielskim
Niezgodność terminologii: Używa “RANGORDNUNG” vs standard “RANGIERUNG”
Słaby przepływ: Mniej naturalne konstrukcje języka niemieckiego
Pokazuje wyraźne ograniczenia mniejszego modelu

Znalezione kluczowe różnice:

Tłumaczenie błędu API:
- DeVistral: ollama API-Fehler (naturalny, małe litery)
- Pozostałe: Ollama-API-Fehler (formalny, łączony)
Zapytania równoległe:
- DeVistral: “handelt mit parallelen Anfragen” (zaawansowane)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
- Qwen3-8B: “behandelt parallele Anfragen” (mniej precyzyjne)
Nagłówki sekcji:
- Większość: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (nieprzyjemne)
Zanieczyszczenie językiem angielskim:
- Qwen3-30B & Qwen3-8B: Pozostawiają “This little” bez tłumaczenia
- Pozostałe: Poprawnie tłumaczą na “Dieses kleine”

Zwycięzca: DeVistral 24B - Pokazuje najbardziej spójną profesjonalną jakość tłumaczenia na język niemiecki z zaawansowaną terminologią techniczną i pełnym przełożeniem języka.

Hehe DeVistral :). Ale to błąd innego LLM.

Aby uzyskać szersze porównanie Ollama z vLLM, LocalAI, Docker Model Runner i opcjami chmurowymi — w tym kiedy wybrać każde z nich do tłumaczenia lub innych obciążeń — zobacz nasz Hosting LLM: Lokalny, Samoobsługowy i Chmurowa Infrastruktura Porównana.

Prosty wniosek: TL;DR

Test 1: Temat filozoficzny

Test 2: Tłumaczenie strony o modelach Qwen3 Embedding & Reranker na Ollama.

Test 3: Ponowne rangowanie z Ollama i modelem Qwen3 Embedding - w Go

Przydatne linki