Hugoページ翻訳品質の比較 - Ollama上のLLM
Qwen3 8B、14Bおよび30B、Devstral 24B、Mistral Small 24B
このテストでは、Ollama上でホストされているさまざまなLLMがHugoページを英語からドイツ語に翻訳する方法を比較しています。英語からドイツ語への翻訳。
Ollamaが他のローカルおよびクラウドLLMインフラ(vLLM、Docker Model Runner、LocalAIおよびクラウドプロバイダー)とどのように比較するかを確認するには、LLMホスティング:ローカル、セルフホストおよびクラウドインフラの比較をご覧ください。
テストした3つのページは、さまざまなトピックについており、いくつかの見出し、リスト、テーブル、リンクなど、構造のあるマーカダウンが含まれています。
すべてのモデルは、16GB VRAMを持つNVIDIA GPU上で実行され、一部は完全にVRAMに収まり、他のモデル(24bおよび30b)はVRAMに収まらず、CPUにスプリットされました。
それでも、それらもテストしました。

私がテストしたOllamaモデル:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
すべてのモデルに翻訳プロンプトを実行した後、スマートなAnthropicモデルに翻訳の質を分析し、各モデルのメトリクスを比較してもらうようにしました。
magistral:24bも試しましたが、thinkingに時間がかかりすぎて遅く、すべてのコンテキストを消費してしまいました。
そのため、私のGPUには不向きです。
簡単な結論:TL;DR
最も優れたのはMistral Small 3.1 24bです。16GB VRAMには収まらないため、私のハードウェアでは少し遅かったです。
次に良いのは、Qwen 3 14bとQwen 3 30bです。14bはスムーズに収まりますが、30bはMoEモデルなので非常に速く、私のハードウェアでは速度が似ています。
テスト1:哲学的なトピック
Hugoベースのウェブサイトのページのマーカダウンは、素晴らしい哲学的なトピックに関するもので、Ad Baculum論理的誤謬の説明と例が含まれています。
index.de.devstral-24b.md - 評価:7/10 長所:
- 技術用語の翻訳が正確(“argumentum ad baculum Fehlschluss”)
- 適切なリンクのフォーマットと構造を維持
- 複雑な哲学的コンセプトの正確な翻訳
- 適切なドイツ語の文法と構文
短所:
- “verunstaltet"で"tainted"を翻訳しているのはやや不自然;“getrübt"がより自然
- いくつかのフレーズがやや硬直または過度に直訳されている
- 特定の文における流れの問題
index.de.mistral-small3.1-24b.md - 評価:8.5/10 長所:
- 自然なドイツ語の流れ
- 技術用語の優れた翻訳
- 元の意味とトーンの良好な保持
- 適切な文法と文構造
- “getrübt"で"tainted"を翻訳しており、より自然
短所:
- 用語の一貫性に非常にわずかな不一致
- ソース構造からわずかな逸脱が時折見られる
index.de.qwen3-8b.md - 評価:6.5/10 長所:
- 主要な概念の正確な翻訳
- 技術用語の適切な処理
- 記事構造の維持
短所:
- いくつかの不自然な表現(“kann sich auch in alltäglichen Interaktionen breiten”)
- 数か所でドイツ語の流れが不自然
- いくつかの文法構造が強制的
- “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt"の文で語が欠けている(文法エラー)
index.de.qwen3-14b.md - 評価:8/10 長所:
- 自然なドイツ語の流れ
- 技術用語の優れた処理
- 元の意味の良好な保持
- 適切な文法と構文
- 一貫したスタイル
短所:
- 用語の一貫性にわずかな変化
- いくつかの文がより簡潔にできていたかもしれない
index.de.qwen3-30b-a3b.md - 評価:7.5/10 長所:
- 全体的な翻訳品質が良好
- 自然なドイツ語表現
- 技術用語の良好な翻訳
- 読みやすさと流れの維持
- 意味の良好な保持
短所:
- 用語選択にわずかな不一致
- いくつかの文でやや不自然な表現
- 最後の段落で「über das [Terrain der] Argumentation」に冠詞が欠けている
総合評価順位
| ファイル | 翻訳品質スコア |
|---|---|
| index.de.mistral-small3.1-24b.md | 8.5/10 |
| index.de.qwen3-14b.md | 8.0/10 |
| index.de.qwen3-30b-a3b.md | 7.5/10 |
| index.de.devstral-24b.md | 7.0/10 |
| index.de.qwen3-8b.md | 6.5/10 |
最良の翻訳: index.de.mistral-small3.1-24b.md - 最も自然なドイツ語の流れと優れた技術的正確性
改善の余地: Qwen3-8bバージョンは文法の修正とより自然な表現が必要であり、他のモデルは主に語選択と一貫性の微調整が必要です。
テスト2:Ollama上のQwen3 Embedding & Rerankerモデルに関するページの翻訳
私の分析に基づき、ドイツ語の翻訳を元の英語テキストと比較して、1~10のスケールで品質評価を行います:
| ファイル | LLMモデル | 翻訳品質スコア | コメント |
|---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | 全体的に優れた翻訳で、自然なドイツ語の流れ、適切な技術用語、Hugoショートコードの完全な保持。わずかな不自然な表現による減点。 |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | 非常に高い品質の翻訳で、一貫した用語、自然なドイツ語、完全なフォーマット保持。Devstralよりわずかに流れが良い。 |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | 混合品質 - はじめの段落で英語-ドイツ語の混在(“The [Qwen3 Embedding and Reranker models]” ではなく完全なドイツ語)。それ以外はよく翻訳されているが、一貫性がない。 |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | 良好なドイツ語翻訳、適切な技術用語、自然な流れ。構造が整っており、一貫性がある。 |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | 優れた翻訳品質、非常に自然なドイツ語、技術用語の一貫性が高く、読みやすさが非常に良い。全体的に最も優れた翻訳。 |
主な評価基準:
翻訳全体に見られた長所:
- Hugoショートコードの保持(
{ {< ref >}}構文) - 技術用語の正確性
- マーカダウンフォーマットの維持
- テーブル構造の保持
- 画像参照の一貫性
品質の差別化要因:
- 言語の一貫性 - Qwen3 8Bには英語-ドイツ語の混在の問題がある
- 自然なドイツ語の流れ - Qwen3 30Bが最も自然なドイツ語表現を達成
- 技術的正確性 - すべてのモデルが技術用語をうまく処理
- フォーマットの保持 - すべてのモデルがHugo構造を完全に保持
品質順位:
- Qwen3 30B (9.0/10) - 全体的に最も優れた品質
- Mistral Small 3.1 24B (8.7/10) - 非常に強力
- Devstral 24B (8.5/10) - 非常に優れた品質
- Qwen3 14B (8.2/10) - 良好
- Qwen3 8B (6.5/10) - 問題があるが十分な品質
より大きなモデル(Qwen3 30BとMistral Small 3.1 24B)が最も高い品質の翻訳を生成し、より小さなQwen3 8Bモデルは一貫性の面で明確な限界を示しました。
テスト3:OllamaとQwen3 Embeddingモデルによるリランキング - Go言語で
基本的に、これはこのウェブサイトの以前の投稿です: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.
私の詳細な分析に基づいて、ドイツ語の翻訳についての比較評価を行います:
翻訳品質分析(1~10スケール)
| ファイル | モデル | スコア | 主な評価 |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | 非常に優れた - 一番一貫性があり、プロフェッショナル |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | 非常に良い - 自然だが、わずかな不一致 |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | 良い - 一部に混在要素があるが、全体的に安定 |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | 普通 - 英語の部分が翻訳されていない |
| index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | 劣る - 複数の翻訳失敗 |
詳細な比較分析:
🥇 DeVistral 24B (9/10) - 優勝 長所:
- 技術的正確性:
ollama API-Fehler(小文字、より自然) - 一貫した翻訳:
handelt mit parallelen Anfragen(洗練された表現) - プロフェッショナル品質:全体的にドイツ語の完全な翻訳
- フォーマット:マークダウン構造の完全な保持
わずかな問題:主に様式の好みに起因する
🥈 Mistral Small 3.1 24B (8.5/10) 長所:
- 自然なドイツ語の流れ
- 良好な技術用語:
Ollama-API-Fehler(ハイフン付き、フォーマルスタイル) - 一貫した
verarbeitet parallele Anfragen
問題:
- 一部の技術的文脈でやや洗練されていない表現
- 一部のフォーマットの変化
🥉 Qwen3 14B (7/10) 長所:
- 一般的に意味の保持が正確
- 適切なドイツ語文法構造
問題:
- いくつかの不自然な構造
- 技術用語の一貫性が混在
- 開頭に
「``」が存在し、フォーマットの問題がある
Qwen3 30B (6.5/10) 重大な欠点:
- 英語の部分が翻訳されていない:「This little」がドイツ語テキストに直接現れる
- より大きなモデルサイズにもかかわらず、翻訳の一貫性が欠如
- 技術的正確性は存在するが、配信に問題がある
Qwen3 8B (5.5/10) 主要な問題:
- 翻訳されていないセクション:「This little」が英語のまま
- 用語の一貫性:「RANGORDNUNG」vs 標準の「RANGIERUNG」
- 流れが悪い:より自然なドイツ語構造が少なく
- より小さなモデルサイズの明確な限界を示す
見つかった主要な差別化要因:
-
APIエラーの翻訳:
- DeVistral:
ollama API-Fehler(自然、小文字) - 他のモデル:
Ollama-API-Fehler(フォーマル、ハイフン付き)
- DeVistral:
-
並列リクエスト:
- DeVistral:
handelt mit parallelen Anfragen(洗練された) - Mistral/Qwen3-14B/30B:
verarbeitet parallele Anfragen(標準) - Qwen3-8B:
behandelt parallele Anfragen(精度が低い)
- DeVistral:
-
セクション見出し:
- 多くのモデル:
RANGIERUNG NACH ÄHNLICHKEIT(標準) - Qwen3-8B:
RANGORDNUNG DURCH ÄHNLICHKEIT(不自然)
- 多くのモデル:
-
英語の汚染:
- Qwen3-30B & Qwen3-8B:「This little」が翻訳されていない
- 他のモデル:適切に「Dieses kleine」に翻訳
優勝者:DeVistral 24B - 最も一貫したプロフェッショナルレベルのドイツ語翻訳を示し、洗練された技術用語と完全な言語変換を実現。
へへ、DeVistral :)。しかし、それは別のLLMのエラーです。
OllamaをvLLM、LocalAI、Docker Model Runner、クラウドオプションと比較する包括的な比較(翻訳やその他のワークロードでそれぞれを選ぶべきタイミングなど)については、LLMホスティング:ローカル、セルフホストおよびクラウドインフラの比較をご覧ください。