Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

Qwen3 8B, 14B e 30B, Devstral 24B e Mistral Small 24B

Conteúdo da página

Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas do Hugo de inglês para alemão.

Para ver como o Ollama se compara com outras infraestruturas de LLM locais e em nuvem — vLLM, Docker Model Runner, LocalAI e provedores de nuvem — consulte Hospedagem de LLM: Infraestrutura Local, Auto-Hospedada e em Nuvem Comparadas.

Três páginas que testei abordavam tópicos diferentes e possuíam uma boa formatação Markdown com alguma estrutura: cabeçalhos, listas, tabelas, links, etc.

Todos esses modelos foram executados em uma GPU NVidia com 16GB de VRAM; alguns deles couberam completamente na VRAM, enquanto outros (24b e 30b) não e transbordaram para a CPU.

Mesmo assim, testei esses também.

duas páginas - tradução em andamento

Os modelos do Ollama que testei:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Após executar os prompts de tradução em todos esses modelos, solicitei a um modelo inteligente da Anthropic que analisasse a qualidade das traduções, comparasse os resultados e fornecesse métricas para cada modelo.

Também tentei o magistral:24b, mas ele estava pensando demais, portanto era lento e consumia todo o contexto. Então - não para a minha GPU.

A conclusão simples: TL;DR

O melhor é o Mistral Small 3.1 24b. Ele não cabe nos 16GB de VRAM, então foi um pouco lento no meu hardware.

Os próximos dois melhores: Qwen 3 14b e Qwen 3 30b. O 14b se encaixa bem, mas o 30b é um modelo MoE, então também é bastante rápido. No meu hardware, a velocidade deles foi similar.

Teste 1: Tópico Filosófico

O Markdown da página do site baseado em Hugo sobre um tópico filosófico incrível - descrição e exemplos da Falácia Lógica do Argumentum ad Baculum.

index.de.devstral-24b.md - Avaliação: 7/10 Pontos fortes:

  • Boa tradução de terminologia técnica (“argumentum ad baculum Fehlschluss”)
  • Mantém a formatação e estrutura de links adequadas
  • Tradução precisa de conceitos filosóficos complexos
  • Gramática e sintaxe alemãs corretas

Pontos fracos:

  • “verunstaltet” para “tainted” é um pouco estranho; “getrübt” seria mais natural
  • Algumas frases parecem um pouco rígidas ou excessivamente literais
  • Pequenos problemas de fluxo em certas sentenças

index.de.mistral-small3.1-24b.md - Avaliação: 8.5/10 Pontos fortes:

  • Fluxo de linguagem alemã muito natural
  • Excelente tradução de termos técnicos
  • Boa preservação do significado e tom originais
  • Gramática e estrutura de sentenças adequadas
  • Usa “getrübt” para “tainted”, o que é mais natural

Pontos fracos:

  • Inconsistências muito menores na terminologia
  • Desvios ocasionais ligeiros da estrutura da fonte

index.de.qwen3-8b.md - Avaliação: 6.5/10 Pontos fortes:

  • Tradução precisa dos principais conceitos
  • Termos técnicos tratados corretamente
  • Mantém a estrutura do artigo

Pontos fracos:

  • Algumas formulações estranhas (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Fluxo de linguagem alemã menos natural em vários trechos
  • Algumas construções gramaticais parecem forçadas
  • Palavra faltando em “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erro gramatical)

index.de.qwen3-14b.md - Avaliação: 8/10 Pontos fortes:

  • Fluxo de linguagem alemã natural
  • Excelente tratamento da terminologia técnica
  • Boa preservação do significado original
  • Gramática e sintaxe adequadas
  • Estilo consistente ao longo do texto

Pontos fracos:

  • Variações menores na consistência da terminologia
  • Algumas sentenças poderiam ser mais concisas

index.de.qwen3-30b-a3b.md - Avaliação: 7.5/10 Pontos fortes:

  • Boa qualidade geral de tradução
  • Expressão alemã natural
  • Termos técnicos bem traduzidos
  • Mantém a legibilidade e o fluxo
  • Boa preservação do significado

Pontos fracos:

  • Algumas pequenas inconsistências na escolha de palavras
  • Formulações ocasionalmente um pouco estranhas
  • Artigo faltando no parágrafo final “über das [Terrain der] Argumentation”

Classificações Resumo

Arquivo Pontuação de Qualidade de Tradução
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Melhor Tradução: index.de.mistral-small3.1-24b.md - Fluxo alemão mais natural com excelente precisão técnica

Áreas para Melhoria: A versão Qwen3-8b precisa de correções gramaticais e formulações mais naturais, enquanto as outras precisam principalmente de refinamentos menores na escolha de palavras e consistência.

Teste 2: Tradução da página sobre Modelos de Embedding e Reranker Qwen3 no Ollama.

Com base na minha análise das traduções alemãs em comparação com o texto original em inglês, aqui estão as classificações de qualidade em uma escala de 1 a 10:

Arquivo Modelo LLM Pontuação de Qualidade de Tradução Comentários
index.de.devstral-24b.md Devstral 24B 8.5/10 Tradução geral excelente com fluxo natural do alemão, terminologia técnica adequada e preservação completa dos shortcodes do Hugo. Deduções menores por algumas formulações ligeiramente estranhas.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Tradução de qualidade muito alta com terminologia consistente, linguagem alemã natural e preservação perfeita da formatação. Fluxo ligeiramente melhor que o Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Qualidade mista - contém mistura de linguagem inglês-alemão no parágrafo de abertura (“The [Qwen3 Embedding and Reranker models]” em vez de alemão completo). O resto está bem traduzido, mas inconsistente.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Boa tradução para alemão com terminologia técnica adequada e fluxo natural. Bem estruturado e consistente em todo o texto.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Qualidade de tradução excelente com linguagem alemã muito natural, consistência perfeita na terminologia técnica e legibilidade excepcional. Melhor tradução geral.

Critérios-chave de Avaliação:

Pontos fortes observados em todas as traduções:

  • Preservação de shortcodes do Hugo (sintaxe { {< ref >}})
  • Precisão da terminologia técnica
  • Manutenção da formatação Markdown
  • Preservação da estrutura de tabelas
  • Consistência nas referências de imagens

Diferenciadores de Qualidade:

  1. Consistência de linguagem - Qwen3 8B teve problemas de mistura inglês-alemão
  2. Fluxo natural do alemão - Qwen3 30B alcançou a expressão alemã mais natural
  3. Precisão técnica - Todos os modelos lidaram bem com termos técnicos
  4. Preservação de formatação - Todos mantiveram a estrutura do Hugo perfeitamente

Classificação por Qualidade:

  1. Qwen3 30B (9.0/10) - Melhor geral
  2. Mistral Small 3.1 24B (8.7/10) - Muito forte
  3. Devstral 24B (8.5/10) - Excelente
  4. Qwen3 14B (8.2/10) - Bom
  5. Qwen3 8B (6.5/10) - Adequado com problemas

Os modelos maiores (Qwen3 30B e Mistral Small 3.1 24B) produziram as traduções de maior qualidade, enquanto o modelo menor Qwen3 8B mostrou limitações claras na consistência.

Teste 3: Reranking com Ollama e modelo de Embedding Qwen3 - em Go

Basicamente, é uma postagem anterior neste site: Reranking de documentos de texto com Ollama e modelo de Embedding Qwen3 - em Go.

Com base na minha análise detalhada das traduções alemãs, aqui está a avaliação comparativa:

Análise de Qualidade de Tradução (Escala 1-10)

Arquivo Modelo Pontuação Avaliação Principal
index.de.devstral-24b.md DeVistral 24B 9/10 Excelente - Mais consistente e profissional
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Muito Bom - Natural, mas com pequenas inconsistências
index.de.qwen3-14b.md Qwen3 14B 7/10 Bom - Sólido com alguns elementos mistos
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Justo - Contém inglês não traduzido
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Ruim - Múltiplas falhas de tradução

Análise Comparativa Detalhada:

🥇 DeVistral 24B (9/10) - Vencedor Pontos fortes:

  • Precisão Técnica: Usa “ollama API-Fehler” (minúsculas, mais natural)
  • Tradução Consistente: “handelt mit parallelen Anfragen” (formulação sofisticada)
  • Qualidade Profissional: Tradução alemã completa ao longo do texto
  • Formatação: Preservação perfeita da estrutura Markdown

Pequenos problemas: Muito poucos, principalmente preferências estilísticas

🥈 Mistral Small 3.1 24B (8.5/10) Pontos fortes:

  • Fluxo de linguagem alemã natural
  • Boa terminologia técnica: “Ollama-API-Fehler” (hifenizado, estilo formal)
  • “verarbeitet parallele Anfragen” consistente

Problemas:

  • Formulação ligeiramente menos sofisticada em alguns contextos técnicos
  • Variações menores de formatação

🥉 Qwen3 14B (7/10) Pontos fortes:

  • Preservação geral precisa do significado
  • Estrutura gramatical alemã adequada

Problemas:

  • Algumas construções estranhas
  • Qualidade mista na terminologia técnica
  • Contém “```” no início e problemas de formatação

Qwen3 30B (6.5/10) Falha Crítica:

  • Contém inglês não traduzido: “This little” aparece diretamente no texto alemão
  • Apesar do tamanho maior do modelo, mostra inconsistências de tradução
  • A precisão técnica está presente, mas a entrega é falha

Qwen3 8B (5.5/10) Problemas Principais:

  • Seções não traduzidas: “This little” deixado em inglês
  • Terminologia inconsistente: Usa “RANGORDNUNG” em vez do padrão “RANGIERUNG”
  • Fluxo ruim: Construções de alemã menos naturais
  • Mostra limitações claras do tamanho menor do modelo

Diferenciadores Principais Encontrados:

  1. Tradução de Erro de API:

    • DeVistral: ollama API-Fehler (natural, minúsculas)
    • Outros: Ollama-API-Fehler (formal, hifenizado)
  2. Solicitações Paralelas:

    • DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (padrão)
    • Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
  3. Cabeçalhos de Seção:

    • Maioria: “RANGIERUNG NACH ÄHNLICHKEIT” (padrão)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (estranho)
  4. Contaminação em Inglês:

    • Qwen3-30B & Qwen3-8B: Deixam “This little” sem traduzir
    • Outros: Traduzem corretamente para “Dieses kleine”

Vencedor: DeVistral 24B - Mostra a tradução de alemã profissional mais consistente com terminologia técnica sofisticada e conversão completa de linguagem.


Hehe DeVistral :). Mas esse é outro erro de um LLM.

Para uma comparação mais ampla do Ollama com vLLM, LocalAI, Docker Model Runner e opções de nuvem — incluindo quando escolher cada um para tradução ou outras cargas de trabalho — veja nosso Hospedagem de LLM: Infraestrutura Local, Auto-Hospedada e em Nuvem Comparadas.

Assinar

Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.