Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama
Qwen3 8B, 14B e 30B, Devstral 24B e Mistral Small 24B
Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas do Hugo de inglês para alemão.
Para ver como o Ollama se compara com outras infraestruturas de LLM locais e em nuvem — vLLM, Docker Model Runner, LocalAI e provedores de nuvem — consulte Hospedagem de LLM: Infraestrutura Local, Auto-Hospedada e em Nuvem Comparadas.
Três páginas que testei abordavam tópicos diferentes e possuíam uma boa formatação Markdown com alguma estrutura: cabeçalhos, listas, tabelas, links, etc.
Todos esses modelos foram executados em uma GPU NVidia com 16GB de VRAM; alguns deles couberam completamente na VRAM, enquanto outros (24b e 30b) não e transbordaram para a CPU.
Mesmo assim, testei esses também.

Os modelos do Ollama que testei:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Após executar os prompts de tradução em todos esses modelos, solicitei a um modelo inteligente da Anthropic que analisasse a qualidade das traduções, comparasse os resultados e fornecesse métricas para cada modelo.
Também tentei o magistral:24b, mas ele estava pensando demais, portanto era lento e consumia todo o contexto.
Então - não para a minha GPU.
A conclusão simples: TL;DR
O melhor é o Mistral Small 3.1 24b. Ele não cabe nos 16GB de VRAM, então foi um pouco lento no meu hardware.
Os próximos dois melhores: Qwen 3 14b e Qwen 3 30b. O 14b se encaixa bem, mas o 30b é um modelo MoE, então também é bastante rápido. No meu hardware, a velocidade deles foi similar.
Teste 1: Tópico Filosófico
O Markdown da página do site baseado em Hugo sobre um tópico filosófico incrível - descrição e exemplos da Falácia Lógica do Argumentum ad Baculum.
index.de.devstral-24b.md - Avaliação: 7/10 Pontos fortes:
- Boa tradução de terminologia técnica (“argumentum ad baculum Fehlschluss”)
- Mantém a formatação e estrutura de links adequadas
- Tradução precisa de conceitos filosóficos complexos
- Gramática e sintaxe alemãs corretas
Pontos fracos:
- “verunstaltet” para “tainted” é um pouco estranho; “getrübt” seria mais natural
- Algumas frases parecem um pouco rígidas ou excessivamente literais
- Pequenos problemas de fluxo em certas sentenças
index.de.mistral-small3.1-24b.md - Avaliação: 8.5/10 Pontos fortes:
- Fluxo de linguagem alemã muito natural
- Excelente tradução de termos técnicos
- Boa preservação do significado e tom originais
- Gramática e estrutura de sentenças adequadas
- Usa “getrübt” para “tainted”, o que é mais natural
Pontos fracos:
- Inconsistências muito menores na terminologia
- Desvios ocasionais ligeiros da estrutura da fonte
index.de.qwen3-8b.md - Avaliação: 6.5/10 Pontos fortes:
- Tradução precisa dos principais conceitos
- Termos técnicos tratados corretamente
- Mantém a estrutura do artigo
Pontos fracos:
- Algumas formulações estranhas (“kann sich auch in alltäglichen Interaktionen breiten”)
- Fluxo de linguagem alemã menos natural em vários trechos
- Algumas construções gramaticais parecem forçadas
- Palavra faltando em “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erro gramatical)
index.de.qwen3-14b.md - Avaliação: 8/10 Pontos fortes:
- Fluxo de linguagem alemã natural
- Excelente tratamento da terminologia técnica
- Boa preservação do significado original
- Gramática e sintaxe adequadas
- Estilo consistente ao longo do texto
Pontos fracos:
- Variações menores na consistência da terminologia
- Algumas sentenças poderiam ser mais concisas
index.de.qwen3-30b-a3b.md - Avaliação: 7.5/10 Pontos fortes:
- Boa qualidade geral de tradução
- Expressão alemã natural
- Termos técnicos bem traduzidos
- Mantém a legibilidade e o fluxo
- Boa preservação do significado
Pontos fracos:
- Algumas pequenas inconsistências na escolha de palavras
- Formulações ocasionalmente um pouco estranhas
- Artigo faltando no parágrafo final “über das [Terrain der] Argumentation”
Classificações Resumo
| Arquivo | Pontuação de Qualidade de Tradução |
|---|---|
| index.de.mistral-small3.1-24b.md | 8.5/10 |
| index.de.qwen3-14b.md | 8.0/10 |
| index.de.qwen3-30b-a3b.md | 7.5/10 |
| index.de.devstral-24b.md | 7.0/10 |
| index.de.qwen3-8b.md | 6.5/10 |
Melhor Tradução: index.de.mistral-small3.1-24b.md - Fluxo alemão mais natural com excelente precisão técnica
Áreas para Melhoria: A versão Qwen3-8b precisa de correções gramaticais e formulações mais naturais, enquanto as outras precisam principalmente de refinamentos menores na escolha de palavras e consistência.
Teste 2: Tradução da página sobre Modelos de Embedding e Reranker Qwen3 no Ollama.
Com base na minha análise das traduções alemãs em comparação com o texto original em inglês, aqui estão as classificações de qualidade em uma escala de 1 a 10:
| Arquivo | Modelo LLM | Pontuação de Qualidade de Tradução | Comentários |
|---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Tradução geral excelente com fluxo natural do alemão, terminologia técnica adequada e preservação completa dos shortcodes do Hugo. Deduções menores por algumas formulações ligeiramente estranhas. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Tradução de qualidade muito alta com terminologia consistente, linguagem alemã natural e preservação perfeita da formatação. Fluxo ligeiramente melhor que o Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Qualidade mista - contém mistura de linguagem inglês-alemão no parágrafo de abertura (“The [Qwen3 Embedding and Reranker models]” em vez de alemão completo). O resto está bem traduzido, mas inconsistente. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Boa tradução para alemão com terminologia técnica adequada e fluxo natural. Bem estruturado e consistente em todo o texto. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Qualidade de tradução excelente com linguagem alemã muito natural, consistência perfeita na terminologia técnica e legibilidade excepcional. Melhor tradução geral. |
Critérios-chave de Avaliação:
Pontos fortes observados em todas as traduções:
- Preservação de shortcodes do Hugo (sintaxe
{ {< ref >}}) - Precisão da terminologia técnica
- Manutenção da formatação Markdown
- Preservação da estrutura de tabelas
- Consistência nas referências de imagens
Diferenciadores de Qualidade:
- Consistência de linguagem - Qwen3 8B teve problemas de mistura inglês-alemão
- Fluxo natural do alemão - Qwen3 30B alcançou a expressão alemã mais natural
- Precisão técnica - Todos os modelos lidaram bem com termos técnicos
- Preservação de formatação - Todos mantiveram a estrutura do Hugo perfeitamente
Classificação por Qualidade:
- Qwen3 30B (9.0/10) - Melhor geral
- Mistral Small 3.1 24B (8.7/10) - Muito forte
- Devstral 24B (8.5/10) - Excelente
- Qwen3 14B (8.2/10) - Bom
- Qwen3 8B (6.5/10) - Adequado com problemas
Os modelos maiores (Qwen3 30B e Mistral Small 3.1 24B) produziram as traduções de maior qualidade, enquanto o modelo menor Qwen3 8B mostrou limitações claras na consistência.
Teste 3: Reranking com Ollama e modelo de Embedding Qwen3 - em Go
Basicamente, é uma postagem anterior neste site: Reranking de documentos de texto com Ollama e modelo de Embedding Qwen3 - em Go.
Com base na minha análise detalhada das traduções alemãs, aqui está a avaliação comparativa:
Análise de Qualidade de Tradução (Escala 1-10)
| Arquivo | Modelo | Pontuação | Avaliação Principal |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | Excelente - Mais consistente e profissional |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Muito Bom - Natural, mas com pequenas inconsistências |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Bom - Sólido com alguns elementos mistos |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Justo - Contém inglês não traduzido |
| index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Ruim - Múltiplas falhas de tradução |
Análise Comparativa Detalhada:
🥇 DeVistral 24B (9/10) - Vencedor Pontos fortes:
- Precisão Técnica: Usa “ollama API-Fehler” (minúsculas, mais natural)
- Tradução Consistente: “handelt mit parallelen Anfragen” (formulação sofisticada)
- Qualidade Profissional: Tradução alemã completa ao longo do texto
- Formatação: Preservação perfeita da estrutura Markdown
Pequenos problemas: Muito poucos, principalmente preferências estilísticas
🥈 Mistral Small 3.1 24B (8.5/10) Pontos fortes:
- Fluxo de linguagem alemã natural
- Boa terminologia técnica: “Ollama-API-Fehler” (hifenizado, estilo formal)
- “verarbeitet parallele Anfragen” consistente
Problemas:
- Formulação ligeiramente menos sofisticada em alguns contextos técnicos
- Variações menores de formatação
🥉 Qwen3 14B (7/10) Pontos fortes:
- Preservação geral precisa do significado
- Estrutura gramatical alemã adequada
Problemas:
- Algumas construções estranhas
- Qualidade mista na terminologia técnica
- Contém “```” no início e problemas de formatação
Qwen3 30B (6.5/10) Falha Crítica:
- Contém inglês não traduzido: “This little” aparece diretamente no texto alemão
- Apesar do tamanho maior do modelo, mostra inconsistências de tradução
- A precisão técnica está presente, mas a entrega é falha
Qwen3 8B (5.5/10) Problemas Principais:
- Seções não traduzidas: “This little” deixado em inglês
- Terminologia inconsistente: Usa “RANGORDNUNG” em vez do padrão “RANGIERUNG”
- Fluxo ruim: Construções de alemã menos naturais
- Mostra limitações claras do tamanho menor do modelo
Diferenciadores Principais Encontrados:
-
Tradução de Erro de API:
- DeVistral:
ollama API-Fehler(natural, minúsculas) - Outros:
Ollama-API-Fehler(formal, hifenizado)
- DeVistral:
-
Solicitações Paralelas:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (padrão)
- Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
-
Cabeçalhos de Seção:
- Maioria: “RANGIERUNG NACH ÄHNLICHKEIT” (padrão)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (estranho)
-
Contaminação em Inglês:
- Qwen3-30B & Qwen3-8B: Deixam “This little” sem traduzir
- Outros: Traduzem corretamente para “Dieses kleine”
Vencedor: DeVistral 24B - Mostra a tradução de alemã profissional mais consistente com terminologia técnica sofisticada e conversão completa de linguagem.
Hehe DeVistral :). Mas esse é outro erro de um LLM.
Para uma comparação mais ampla do Ollama com vLLM, LocalAI, Docker Model Runner e opções de nuvem — incluindo quando escolher cada um para tradução ou outras cargas de trabalho — veja nosso Hospedagem de LLM: Infraestrutura Local, Auto-Hospedada e em Nuvem Comparadas.