Hugoページ翻訳品質の比較 - Ollama上のLLM

Qwen3 8B、14Bおよび30B、Devstral 24B、Mistral Small 24B

目次

このテストでは、Ollama上でホストされているさまざまなLLMがHugoページを英語からドイツ語に翻訳する方法を比較しています。英語からドイツ語への翻訳

Ollamaが他のローカルおよびクラウドLLMインフラ(vLLM、Docker Model Runner、LocalAIおよびクラウドプロバイダー)とどのように比較するかを確認するには、LLMホスティング:ローカル、セルフホストおよびクラウドインフラの比較をご覧ください。

テストした3つのページは、さまざまなトピックについており、いくつかの見出し、リスト、テーブル、リンクなど、構造のあるマーカダウンが含まれています。

すべてのモデルは、16GB VRAMを持つNVIDIA GPU上で実行され、一部は完全にVRAMに収まり、他のモデル(24bおよび30b)はVRAMに収まらず、CPUにスプリットされました。

それでも、それらもテストしました。

2ページ - 翻訳進行中

私がテストしたOllamaモデル:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

すべてのモデルに翻訳プロンプトを実行した後、スマートなAnthropicモデルに翻訳の質を分析し、各モデルのメトリクスを比較してもらうようにしました。

magistral:24bも試しましたが、thinkingに時間がかかりすぎて遅く、すべてのコンテキストを消費してしまいました。 そのため、私のGPUには不向きです。

簡単な結論:TL;DR

最も優れたのはMistral Small 3.1 24bです。16GB VRAMには収まらないため、私のハードウェアでは少し遅かったです。

次に良いのは、Qwen 3 14bとQwen 3 30bです。14bはスムーズに収まりますが、30bはMoEモデルなので非常に速く、私のハードウェアでは速度が似ています。

テスト1:哲学的なトピック

Hugoベースのウェブサイトのページのマーカダウンは、素晴らしい哲学的なトピックに関するもので、Ad Baculum論理的誤謬の説明と例が含まれています。

index.de.devstral-24b.md - 評価:7/10 長所:

  • 技術用語の翻訳が正確(“argumentum ad baculum Fehlschluss”)
  • 適切なリンクのフォーマットと構造を維持
  • 複雑な哲学的コンセプトの正確な翻訳
  • 適切なドイツ語の文法と構文

短所:

  • “verunstaltet"で"tainted"を翻訳しているのはやや不自然;“getrübt"がより自然
  • いくつかのフレーズがやや硬直または過度に直訳されている
  • 特定の文における流れの問題

index.de.mistral-small3.1-24b.md - 評価:8.5/10 長所:

  • 自然なドイツ語の流れ
  • 技術用語の優れた翻訳
  • 元の意味とトーンの良好な保持
  • 適切な文法と文構造
  • “getrübt"で"tainted"を翻訳しており、より自然

短所:

  • 用語の一貫性に非常にわずかな不一致
  • ソース構造からわずかな逸脱が時折見られる

index.de.qwen3-8b.md - 評価:6.5/10 長所:

  • 主要な概念の正確な翻訳
  • 技術用語の適切な処理
  • 記事構造の維持

短所:

  • いくつかの不自然な表現(“kann sich auch in alltäglichen Interaktionen breiten”)
  • 数か所でドイツ語の流れが不自然
  • いくつかの文法構造が強制的
  • “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt"の文で語が欠けている(文法エラー)

index.de.qwen3-14b.md - 評価:8/10 長所:

  • 自然なドイツ語の流れ
  • 技術用語の優れた処理
  • 元の意味の良好な保持
  • 適切な文法と構文
  • 一貫したスタイル

短所:

  • 用語の一貫性にわずかな変化
  • いくつかの文がより簡潔にできていたかもしれない

index.de.qwen3-30b-a3b.md - 評価:7.5/10 長所:

  • 全体的な翻訳品質が良好
  • 自然なドイツ語表現
  • 技術用語の良好な翻訳
  • 読みやすさと流れの維持
  • 意味の良好な保持

短所:

  • 用語選択にわずかな不一致
  • いくつかの文でやや不自然な表現
  • 最後の段落で「über das [Terrain der] Argumentation」に冠詞が欠けている

総合評価順位

ファイル 翻訳品質スコア
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

最良の翻訳: index.de.mistral-small3.1-24b.md - 最も自然なドイツ語の流れと優れた技術的正確性

改善の余地: Qwen3-8bバージョンは文法の修正とより自然な表現が必要であり、他のモデルは主に語選択と一貫性の微調整が必要です。

テスト2:Ollama上のQwen3 Embedding & Rerankerモデルに関するページの翻訳

私の分析に基づき、ドイツ語の翻訳を元の英語テキストと比較して、1~10のスケールで品質評価を行います:

ファイル LLMモデル 翻訳品質スコア コメント
index.de.devstral-24b.md Devstral 24B 8.5/10 全体的に優れた翻訳で、自然なドイツ語の流れ、適切な技術用語、Hugoショートコードの完全な保持。わずかな不自然な表現による減点。
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 非常に高い品質の翻訳で、一貫した用語、自然なドイツ語、完全なフォーマット保持。Devstralよりわずかに流れが良い。
index.de.qwen3-8b.md Qwen3 8B 6.5/10 混合品質 - はじめの段落で英語-ドイツ語の混在(“The [Qwen3 Embedding and Reranker models]” ではなく完全なドイツ語)。それ以外はよく翻訳されているが、一貫性がない。
index.de.qwen3-14b.md Qwen3 14B 8.2/10 良好なドイツ語翻訳、適切な技術用語、自然な流れ。構造が整っており、一貫性がある。
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 優れた翻訳品質、非常に自然なドイツ語、技術用語の一貫性が高く、読みやすさが非常に良い。全体的に最も優れた翻訳。

主な評価基準:

翻訳全体に見られた長所:

  • Hugoショートコードの保持({ {< ref >}}構文)
  • 技術用語の正確性
  • マーカダウンフォーマットの維持
  • テーブル構造の保持
  • 画像参照の一貫性

品質の差別化要因:

  1. 言語の一貫性 - Qwen3 8Bには英語-ドイツ語の混在の問題がある
  2. 自然なドイツ語の流れ - Qwen3 30Bが最も自然なドイツ語表現を達成
  3. 技術的正確性 - すべてのモデルが技術用語をうまく処理
  4. フォーマットの保持 - すべてのモデルがHugo構造を完全に保持

品質順位:

  1. Qwen3 30B (9.0/10) - 全体的に最も優れた品質
  2. Mistral Small 3.1 24B (8.7/10) - 非常に強力
  3. Devstral 24B (8.5/10) - 非常に優れた品質
  4. Qwen3 14B (8.2/10) - 良好
  5. Qwen3 8B (6.5/10) - 問題があるが十分な品質

より大きなモデル(Qwen3 30BとMistral Small 3.1 24B)が最も高い品質の翻訳を生成し、より小さなQwen3 8Bモデルは一貫性の面で明確な限界を示しました。

テスト3:OllamaとQwen3 Embeddingモデルによるリランキング - Go言語で

基本的に、これはこのウェブサイトの以前の投稿です: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

私の詳細な分析に基づいて、ドイツ語の翻訳についての比較評価を行います:

翻訳品質分析(1~10スケール)

ファイル モデル スコア 主な評価
index.de.devstral-24b.md DeVistral 24B 9/10 非常に優れた - 一番一貫性があり、プロフェッショナル
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 非常に良い - 自然だが、わずかな不一致
index.de.qwen3-14b.md Qwen3 14B 7/10 良い - 一部に混在要素があるが、全体的に安定
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 普通 - 英語の部分が翻訳されていない
index.de.qwen3-8b.md Qwen3 8B 5.5/10 劣る - 複数の翻訳失敗

詳細な比較分析:

🥇 DeVistral 24B (9/10) - 優勝 長所:

  • 技術的正確性ollama API-Fehler(小文字、より自然)
  • 一貫した翻訳handelt mit parallelen Anfragen(洗練された表現)
  • プロフェッショナル品質:全体的にドイツ語の完全な翻訳
  • フォーマット:マークダウン構造の完全な保持

わずかな問題:主に様式の好みに起因する

🥈 Mistral Small 3.1 24B (8.5/10) 長所:

  • 自然なドイツ語の流れ
  • 良好な技術用語:Ollama-API-Fehler(ハイフン付き、フォーマルスタイル)
  • 一貫したverarbeitet parallele Anfragen

問題:

  • 一部の技術的文脈でやや洗練されていない表現
  • 一部のフォーマットの変化

🥉 Qwen3 14B (7/10) 長所:

  • 一般的に意味の保持が正確
  • 適切なドイツ語文法構造

問題:

  • いくつかの不自然な構造
  • 技術用語の一貫性が混在
  • 開頭に「``」が存在し、フォーマットの問題がある

Qwen3 30B (6.5/10) 重大な欠点:

  • 英語の部分が翻訳されていない:「This little」がドイツ語テキストに直接現れる
  • より大きなモデルサイズにもかかわらず、翻訳の一貫性が欠如
  • 技術的正確性は存在するが、配信に問題がある

Qwen3 8B (5.5/10) 主要な問題:

  • 翻訳されていないセクション:「This little」が英語のまま
  • 用語の一貫性:「RANGORDNUNG」vs 標準の「RANGIERUNG」
  • 流れが悪い:より自然なドイツ語構造が少なく
  • より小さなモデルサイズの明確な限界を示す

見つかった主要な差別化要因:

  1. APIエラーの翻訳:

    • DeVistral:ollama API-Fehler(自然、小文字)
    • 他のモデル:Ollama-API-Fehler(フォーマル、ハイフン付き)
  2. 並列リクエスト:

    • DeVistral:handelt mit parallelen Anfragen(洗練された)
    • Mistral/Qwen3-14B/30B:verarbeitet parallele Anfragen(標準)
    • Qwen3-8B:behandelt parallele Anfragen(精度が低い)
  3. セクション見出し:

    • 多くのモデル:RANGIERUNG NACH ÄHNLICHKEIT(標準)
    • Qwen3-8B:RANGORDNUNG DURCH ÄHNLICHKEIT(不自然)
  4. 英語の汚染:

    • Qwen3-30B & Qwen3-8B:「This little」が翻訳されていない
    • 他のモデル:適切に「Dieses kleine」に翻訳

優勝者:DeVistral 24B - 最も一貫したプロフェッショナルレベルのドイツ語翻訳を示し、洗練された技術用語と完全な言語変換を実現。


へへ、DeVistral :)。しかし、それは別のLLMのエラーです。

OllamaをvLLM、LocalAI、Docker Model Runner、クラウドオプションと比較する包括的な比較(翻訳やその他のワークロードでそれぞれを選ぶべきタイミングなど)については、LLMホスティング:ローカル、セルフホストおよびクラウドインフラの比較をご覧ください。

有用なリンク