Qual é o melhor LLM para tradução de texto no OLLAMA?

O melhor LLM para tradução de texto no OLLAMA é o Mistral small 3.1 24b.

Posso executar esses modelos de tradução em backends diferentes do Ollama?

Sim. O guia de hospedagem de LLMs compara o Ollama com o vLLM, LocalAI, Docker Model Runner e as APIs em nuvem, para que você possa escolher a infraestrutura de backend ideal para sua configuração.

Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

Q: Onde posso comparar o Ollama com outras opções de hospedagem de LLM?

Nosso resumo sobre hospedagem de LLMs compara o Ollama com vLLM, Docker Model Runner, LocalAI e provedores de nuvem, incluindo compensações de custo e infraestrutura.

Qwen3 8B, 14B e 30B, Devstral 24B e Mistral Small 24B

Conteúdo da página

Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas do Hugo de inglês para alemão.

Para ver como o Ollama se compara com outras infraestruturas de LLM locais e em nuvem — vLLM, Docker Model Runner, LocalAI e provedores de nuvem — consulte Hospedagem de LLM: Infraestrutura Local, Auto-Hospedada e em Nuvem Comparadas.

Três páginas que testei abordavam tópicos diferentes e possuíam uma boa formatação Markdown com alguma estrutura: cabeçalhos, listas, tabelas, links, etc.

Todos esses modelos foram executados em uma GPU NVidia com 16GB de VRAM; alguns deles couberam completamente na VRAM, enquanto outros (24b e 30b) não e transbordaram para a CPU.

Mesmo assim, testei esses também.

duas páginas - tradução em andamento

Os modelos do Ollama que testei:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Após executar os prompts de tradução em todos esses modelos, solicitei a um modelo inteligente da Anthropic que analisasse a qualidade das traduções, comparasse os resultados e fornecesse métricas para cada modelo.

Também tentei o magistral:24b, mas ele estava pensando demais, portanto era lento e consumia todo o contexto. Então - não para a minha GPU.

A conclusão simples: TL;DR

O melhor é o Mistral Small 3.1 24b. Ele não cabe nos 16GB de VRAM, então foi um pouco lento no meu hardware.

Os próximos dois melhores: Qwen 3 14b e Qwen 3 30b. O 14b se encaixa bem, mas o 30b é um modelo MoE, então também é bastante rápido. No meu hardware, a velocidade deles foi similar.

Teste 1: Tópico Filosófico

O Markdown da página do site baseado em Hugo sobre um tópico filosófico incrível - descrição e exemplos da Falácia Lógica do Argumentum ad Baculum.

index.de.devstral-24b.md - Avaliação: 7/10 Pontos fortes:

Boa tradução de terminologia técnica (“argumentum ad baculum Fehlschluss”)
Mantém a formatação e estrutura de links adequadas
Tradução precisa de conceitos filosóficos complexos
Gramática e sintaxe alemãs corretas

Pontos fracos:

“verunstaltet” para “tainted” é um pouco estranho; “getrübt” seria mais natural
Algumas frases parecem um pouco rígidas ou excessivamente literais
Pequenos problemas de fluxo em certas sentenças

index.de.mistral-small3.1-24b.md - Avaliação: 8.5/10 Pontos fortes:

Fluxo de linguagem alemã muito natural
Excelente tradução de termos técnicos
Boa preservação do significado e tom originais
Gramática e estrutura de sentenças adequadas
Usa “getrübt” para “tainted”, o que é mais natural

Pontos fracos:

Inconsistências muito menores na terminologia
Desvios ocasionais ligeiros da estrutura da fonte

index.de.qwen3-8b.md - Avaliação: 6.5/10 Pontos fortes:

Tradução precisa dos principais conceitos
Termos técnicos tratados corretamente
Mantém a estrutura do artigo

Pontos fracos:

Algumas formulações estranhas (“kann sich auch in alltäglichen Interaktionen breiten”)
Fluxo de linguagem alemã menos natural em vários trechos
Algumas construções gramaticais parecem forçadas
Palavra faltando em “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erro gramatical)

index.de.qwen3-14b.md - Avaliação: 8/10 Pontos fortes:

Fluxo de linguagem alemã natural
Excelente tratamento da terminologia técnica
Boa preservação do significado original
Gramática e sintaxe adequadas
Estilo consistente ao longo do texto

Pontos fracos:

Variações menores na consistência da terminologia
Algumas sentenças poderiam ser mais concisas

index.de.qwen3-30b-a3b.md - Avaliação: 7.5/10 Pontos fortes:

Boa qualidade geral de tradução
Expressão alemã natural
Termos técnicos bem traduzidos
Mantém a legibilidade e o fluxo
Boa preservação do significado

Pontos fracos:

Algumas pequenas inconsistências na escolha de palavras
Formulações ocasionalmente um pouco estranhas
Artigo faltando no parágrafo final “über das [Terrain der] Argumentation”

Classificações Resumo

Arquivo	Pontuação de Qualidade de Tradução
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

Melhor Tradução: index.de.mistral-small3.1-24b.md - Fluxo alemão mais natural com excelente precisão técnica

Áreas para Melhoria: A versão Qwen3-8b precisa de correções gramaticais e formulações mais naturais, enquanto as outras precisam principalmente de refinamentos menores na escolha de palavras e consistência.

Teste 2: Tradução da página sobre Modelos de Embedding e Reranker Qwen3 no Ollama.

Com base na minha análise das traduções alemãs em comparação com o texto original em inglês, aqui estão as classificações de qualidade em uma escala de 1 a 10:

Arquivo	Modelo LLM	Pontuação de Qualidade de Tradução	Comentários
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	Tradução geral excelente com fluxo natural do alemão, terminologia técnica adequada e preservação completa dos shortcodes do Hugo. Deduções menores por algumas formulações ligeiramente estranhas.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	Tradução de qualidade muito alta com terminologia consistente, linguagem alemã natural e preservação perfeita da formatação. Fluxo ligeiramente melhor que o Devstral.
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	Qualidade mista - contém mistura de linguagem inglês-alemão no parágrafo de abertura (“The [Qwen3 Embedding and Reranker models]” em vez de alemão completo). O resto está bem traduzido, mas inconsistente.
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	Boa tradução para alemão com terminologia técnica adequada e fluxo natural. Bem estruturado e consistente em todo o texto.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	Qualidade de tradução excelente com linguagem alemã muito natural, consistência perfeita na terminologia técnica e legibilidade excepcional. Melhor tradução geral.

Critérios-chave de Avaliação:

Pontos fortes observados em todas as traduções:

Preservação de shortcodes do Hugo (sintaxe { {< ref >}})
Precisão da terminologia técnica
Manutenção da formatação Markdown
Preservação da estrutura de tabelas
Consistência nas referências de imagens

Diferenciadores de Qualidade:

Consistência de linguagem - Qwen3 8B teve problemas de mistura inglês-alemão
Fluxo natural do alemão - Qwen3 30B alcançou a expressão alemã mais natural
Precisão técnica - Todos os modelos lidaram bem com termos técnicos
Preservação de formatação - Todos mantiveram a estrutura do Hugo perfeitamente

Classificação por Qualidade:

Qwen3 30B (9.0/10) - Melhor geral
Mistral Small 3.1 24B (8.7/10) - Muito forte
Devstral 24B (8.5/10) - Excelente
Qwen3 14B (8.2/10) - Bom
Qwen3 8B (6.5/10) - Adequado com problemas

Os modelos maiores (Qwen3 30B e Mistral Small 3.1 24B) produziram as traduções de maior qualidade, enquanto o modelo menor Qwen3 8B mostrou limitações claras na consistência.

Teste 3: Reranking com Ollama e modelo de Embedding Qwen3 - em Go

Basicamente, é uma postagem anterior neste site: Reranking de documentos de texto com Ollama e modelo de Embedding Qwen3 - em Go.

Com base na minha análise detalhada das traduções alemãs, aqui está a avaliação comparativa:

Análise de Qualidade de Tradução (Escala 1-10)

Arquivo	Modelo	Pontuação	Avaliação Principal
index.de.devstral-24b.md	DeVistral 24B	9/10	Excelente - Mais consistente e profissional
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	Muito Bom - Natural, mas com pequenas inconsistências
index.de.qwen3-14b.md	Qwen3 14B	7/10	Bom - Sólido com alguns elementos mistos
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	Justo - Contém inglês não traduzido
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	Ruim - Múltiplas falhas de tradução

Análise Comparativa Detalhada:

🥇 DeVistral 24B (9/10) - Vencedor Pontos fortes:

Precisão Técnica: Usa “ollama API-Fehler” (minúsculas, mais natural)
Tradução Consistente: “handelt mit parallelen Anfragen” (formulação sofisticada)
Qualidade Profissional: Tradução alemã completa ao longo do texto
Formatação: Preservação perfeita da estrutura Markdown

Pequenos problemas: Muito poucos, principalmente preferências estilísticas

🥈 Mistral Small 3.1 24B (8.5/10) Pontos fortes:

Fluxo de linguagem alemã natural
Boa terminologia técnica: “Ollama-API-Fehler” (hifenizado, estilo formal)
“verarbeitet parallele Anfragen” consistente

Problemas:

Formulação ligeiramente menos sofisticada em alguns contextos técnicos
Variações menores de formatação

🥉 Qwen3 14B (7/10) Pontos fortes:

Preservação geral precisa do significado
Estrutura gramatical alemã adequada

Problemas:

Algumas construções estranhas
Qualidade mista na terminologia técnica
Contém “```” no início e problemas de formatação

Qwen3 30B (6.5/10) Falha Crítica:

Contém inglês não traduzido: “This little” aparece diretamente no texto alemão
Apesar do tamanho maior do modelo, mostra inconsistências de tradução
A precisão técnica está presente, mas a entrega é falha

Qwen3 8B (5.5/10) Problemas Principais:

Seções não traduzidas: “This little” deixado em inglês
Terminologia inconsistente: Usa “RANGORDNUNG” em vez do padrão “RANGIERUNG”
Fluxo ruim: Construções de alemã menos naturais
Mostra limitações claras do tamanho menor do modelo

Diferenciadores Principais Encontrados:

Tradução de Erro de API:
- DeVistral: ollama API-Fehler (natural, minúsculas)
- Outros: Ollama-API-Fehler (formal, hifenizado)
Solicitações Paralelas:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (padrão)
- Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
Cabeçalhos de Seção:
- Maioria: “RANGIERUNG NACH ÄHNLICHKEIT” (padrão)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (estranho)
Contaminação em Inglês:
- Qwen3-30B & Qwen3-8B: Deixam “This little” sem traduzir
- Outros: Traduzem corretamente para “Dieses kleine”

Vencedor: DeVistral 24B - Mostra a tradução de alemã profissional mais consistente com terminologia técnica sofisticada e conversão completa de linguagem.

Hehe DeVistral :). Mas esse é outro erro de um LLM.

Para uma comparação mais ampla do Ollama com vLLM, LocalAI, Docker Model Runner e opções de nuvem — incluindo quando escolher cada um para tradução ou outras cargas de trabalho — veja nosso Hospedagem de LLM: Infraestrutura Local, Auto-Hospedada e em Nuvem Comparadas.

A conclusão simples: TL;DR

Teste 1: Tópico Filosófico

Teste 2: Tradução da página sobre Modelos de Embedding e Reranker Qwen3 no Ollama.

Teste 3: Reranking com Ollama e modelo de Embedding Qwen3 - em Go

Links úteis

Assinar