Hugo 페이지 번역 품질 비교 - Ollama 상의 LLMs
qwen3 8b, 14b 및 30b, devstral 24b, mistral small 24b
이 테스트에서는 Ollama에 호스팅된 다양한 LLM이 Hugo 페이지를 영어에서 독일어로 번역하는 방식을 비교하고 있습니다. 다른 LLM이 호스팅된 Ollama에서 Hugo 페이지를 영어에서 독일어로 번역하는 방식 비교.
Ollama가 다른 로컬 및 클라우드 LLM 인프라—vLLM, Docker Model Runner, LocalAI 및 클라우드 제공업체와 비교되는 방식을 보고 싶다면 LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교를 확인하세요.
테스트한 세 페이지는 서로 다른 주제에 있었으며, 헤더, 목록, 표, 링크 등 구조가 있는 훌륭한 마크다운이 포함되어 있었습니다.
이 모든 모델은 16GB VRAM을 가진 NVidia GPU에서 실행되었으며, 일부는 VRAM에 완전히 맞았고, 일부(24b 및 30b)는 CPU로 이전되었습니다.
그럼에도 불구하고, 이들도 테스트했습니다.

테스트한 Ollama 모델:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
모든 모델에 번역 프롬프트를 실행한 후, 저는 스마트한 Anthropic 모델을 사용해 번역의 품질을 분석하고, 각 모델에 대한 메트릭을 제공하도록 요청했습니다.
magistral:24b도 시도했지만, 너무 많이 thinking을 했기 때문에 느리고, 맥락을 모두 소모했습니다.
그래서 - 제 GPU에는 적합하지 않습니다.
간단한 결론: TL;DR
가장 좋은 것은 Mistral Small 3.1 24b입니다. 16GB VRAM에 맞지 않아 제 하드웨어에서 약간 느렸습니다.
다음 두 번째로 좋은 것은 Qwen 3 14b와 Qwen 3 30b입니다. 14b는 잘 맞았지만, 30b는 MoE 모델이기 때문에 매우 빠르기도 했습니다. 제 하드웨어에서 속도는 비슷했습니다.
테스트 1: 철학적 주제
Hugo 기반 웹사이트 페이지의 마크다운은 어떤 멋진 철학적 주제에 관한 것이었습니다 - Ad Baculum 논리적 오류에 대한 설명과 예시입니다.
index.de.devstral-24b.md - 평가: 7/10 장점:
- 기술 용어 번역이 잘 되었음 (“argumentum ad baculum Fehlschluss”)
- 적절한 링크 형식과 구조 유지
- 복잡한 철학적 개념의 정확한 번역
- 적절한 독일어 문법 및 구문
단점:
- “verunstaltet"가 “tainted"에 사용되었지만, 약간 부자연스러움; “getrübt"가 더 자연스러움
- 일부 문장이 약간 강하게 또는 직역적으로 느껴짐
- 일부 문장에서 약간의 흐름 문제 발생
index.de.mistral-small3.1-24b.md - 평가: 8.5/10 장점:
- 매우 자연스러운 독일어 흐름
- 기술 용어의 우수한 번역
- 원래 의미와 톤의 잘 유지
- 적절한 문법 및 문장 구조
- “getrübt"가 “tainted"에 사용되었으며, 더 자연스러움
단점:
- 용어 일관성에 대한 매우 작은 차이
- 일부 문장에서 원본 구조와 약간의 편차 발생
index.de.qwen3-8b.md - 평가: 6.5/10 장점:
- 주요 개념의 정확한 번역
- 기술 용어의 적절한 처리
- 기사 구조 유지
단점:
- 일부 표현이 약간 부자연스러움 (“kann sich auch in alltäglichen Interaktionen breiten”)
- 여러 문장에서 독일어 흐름이 덜 자연스러움
- 일부 문법 구조가 강제적으로 느껴짐
- “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt"에서 단어 누락 (문법 오류)
index.de.qwen3-14b.md - 평가: 8/10 장점:
- 자연스러운 독일어 흐름
- 기술 용어의 우수한 처리
- 원래 의미의 잘 유지
- 적절한 문법 및 구문
- 전반적으로 일관된 스타일
단점:
- 용어 일관성에 대한 약간의 차이
- 일부 문장이 더 간결할 수 있음
index.de.qwen3-30b-a3b.md - 평가: 7.5/10 장점:
- 전반적인 번역 품질이 좋음
- 자연스러운 독일어 표현
- 기술 용어가 잘 번역됨
- 가독성과 흐름 유지
- 의미의 잘 유지
단점:
- 일부 단어 선택에서 약간의 일관성 문제
- 가끔 약간 부자연스러운 표현
- 마지막 단락에서 “über das [Terrain der] Argumentation"에서 어절 누락
평가 순위
| 파일 | 번역 품질 점수 |
|---|---|
| index.de.mistral-small3.1-24b.md | 8.5/10 |
| index.de.qwen3-14b.md | 8.0/10 |
| index.de.qwen3-30b-a3b.md | 7.5/10 |
| index.de.devstral-24b.md | 7.0/10 |
| index.de.qwen3-8b.md | 6.5/10 |
가장 우수한 번역: index.de.mistral-small3.1-24b.md - 가장 자연스러운 독일어 흐름과 우수한 기술 정확도
개선이 필요한 영역: Qwen3-8b 버전은 문법 수정과 더 자연스러운 표현이 필요하며, 나머지는 단어 선택 및 일관성에 대한 작은 개선이 필요합니다.
테스트 2: Ollama에 호스팅된 Qwen3 Embedding 및 Reranker 모델에 대한 페이지 번역
원문 영어 텍스트와 비교한 독일어 번역 분석을 바탕으로, 품질 점수는 1-10점 척도로 다음과 같습니다:
| 파일 | LLM 모델 | 번역 품질 점수 | 설명 |
|---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | 전체적으로 우수한 번역, 자연스러운 독일어 흐름, 적절한 기술 용어 사용, 모든 Hugo 단축어 보존. 일부 약간 부자연스러운 표현으로 인해 약간 점수가 깎임. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | 매우 우수한 번역, 일관된 용어, 자연스러운 독일어, 완벽한 포맷 보존. Devstral보다 약간 더 자연스러운 흐름. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | 혼합된 품질 - 개요 문단에서 영어-독일어 혼합 (“The [Qwen3 Embedding and Reranker models]” 대신 전체 독일어 사용). 나머지는 잘 번역되었지만 일관성이 부족함. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | 우수한 독일어 번역, 적절한 기술 용어 사용, 자연스러운 흐름. 구조가 잘 구성되어 있고 일관성이 있음. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | 매우 우수한 번역 품질, 매우 자연스러운 독일어, 기술 용어 일관성 완벽, 독자성 뛰어남. 가장 우수한 전체 번역. |
핵심 평가 기준:
번역에서 관찰된 장점:
- Hugo 단축어 보존 (
{ {< ref >}}구문) - 기술 용어 정확성
- 마크다운 형식 유지
- 표 구조 보존
- 이미지 참조 일관성
품질 차이점:
- 언어 일관성 - Qwen3 8B는 영어-독일어 혼합 문제가 있음
- 자연스러운 독일어 흐름 - Qwen3 30B가 가장 자연스러운 독일어 표현 달성
- 기술 정확성 - 모든 모델이 기술 용어 잘 처리
- 포맷 보존 - 모두 Hugo 구조 완벽히 유지
품질 순위:
- Qwen3 30B (9.0/10) - 가장 우수
- Mistral Small 3.1 24B (8.7/10) - 매우 강력
- Devstral 24B (8.5/10) - 우수
- Qwen3 14B (8.2/10) - 좋음
- Qwen3 8B (6.5/10) - 문제가 있음
더 큰 모델(Qwen3 30B 및 Mistral Small 3.1 24B)이 가장 높은 품질의 번역을 생성했으며, 더 작은 Qwen3 8B 모델은 일관성 측면에서 명확한 한계를 보였습니다.
테스트 3: Ollama와 Qwen3 Embedding 모델을 사용한 재정렬 - Go 언어로
기본적으로 이는 이 웹사이트의 이전 게시물입니다: Ollama와 Qwen3 Embedding 모델을 사용한 텍스트 문서 재정렬 - Go 언어로.
제가 자세히 분석한 독일어 번역에 기반하여, 다음은 비교 평가입니다:
번역 품질 분석 (1-10 척도)
| 파일 | 모델 | 점수 | 주요 평가 |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | 우수 - 가장 일관되고 전문적인 번역 |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | 매우 좋음 - 자연스럽지만 약간의 일관성 문제 |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | 좋음 - 일반적으로 잘 유지되지만 일부 혼합 요소 |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | 보통 - 일부 영어가 번역되지 않음 |
| index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | 약함 - 여러 번역 실패 |
자세한 비교 분석:
🥇 DeVistral 24B (9/10) - 우승 장점:
- 기술 정확성: “ollama API-Fehler” (소문자, 더 자연스러움)
- 일관된 번역: “handelt mit parallelen Anfragen” (복잡한 표현)
- 전문성: 전반적으로 완전한 독일어 번역
- 포맷: 마크다운 구조 완벽히 유지
소소한 문제: 매우 적음, 주로 스타일 선호 문제
🥈 Mistral Small 3.1 24B (8.5/10) 장점:
- 자연스러운 독일어 흐름
- 우수한 기술 용어: “Ollama-API-Fehler” (하이픈, 공식 스타일)
- 일관된 “verarbeitet parallele Anfragen”
문제:
- 일부 기술 문맥에서 약간 덜 복잡한 표현
- 약간의 포맷 차이
🥉 Qwen3 14B (7/10) 장점:
- 일반적으로 의미 유지
- 적절한 독일어 문법 구조
문제:
- 일부 부자연스러운 구조
- 기술 용어에서 혼합된 품질
- “```” 시작 부분과 포맷 문제 포함
Qwen3 30B (6.5/10) 중요한 결함:
- 번역되지 않은 영어: “This little"가 독일어 텍스트에 직접 포함됨
- 더 큰 모델 크기에도 불구하고 번역 불일치
- 기술 정확성은 있지만, 전달은 결함 있음
Qwen3 8B (5.5/10) 주요 문제:
- 번역되지 않은 섹션: “This little"가 영어로 남음
- 불일관된 용어: “RANGORDNUNG” 대신 표준 “RANGIERUNG” 사용
- 부자연스러운 흐름: 덜 자연스러운 독일어 구조
- 작은 모델 크기의 명확한 한계 보임
발견된 주요 차이점:
-
API 오류 번역:
- DeVistral:
ollama API-Fehler(자연스럽고 소문자) - 다른 모델:
Ollama-API-Fehler(공식적이고 하이픈)
- DeVistral:
-
병렬 요청:
- DeVistral: “handelt mit parallelen Anfragen” (복잡한 표현)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (표준)
- Qwen3-8B: “behandelt parallele Anfragen” (덜 정확)
-
섹션 헤더:
- 대부분: “RANGIERUNG NACH ÄHNLICHKEIT” (표준)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (부자연스러움)
-
영어 오염:
- Qwen3-30B & Qwen3-8B: “This little"가 번역되지 않음
- 다른 모델: “Dieses kleine"로 올바르게 번역
우승자: DeVistral 24B - 가장 일관된 전문적인 독일어 번역을 보여주며, 복잡한 기술 용어와 완전한 언어 전환을 달성했습니다.
하하 DeVistral :) 하지만 이건 또 다른 LLM의 오류입니다.
Ollama와 vLLM, LocalAI, Docker Model Runner 및 클라우드 옵션—번역 또는 기타 워크로드에 어떤 것을 선택해야 하는지에 대한 보다 광범위한 비교를 원하시면, LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교를 참조하세요.