Hugo 페이지 번역 품질 비교 - Ollama 상의 LLMs

qwen3 8b, 14b 및 30b, devstral 24b, mistral small 24b

Page content

이 테스트에서는 Ollama에 호스팅된 다양한 LLM이 Hugo 페이지를 영어에서 독일어로 번역하는 방식을 비교하고 있습니다. 다른 LLM이 호스팅된 Ollama에서 Hugo 페이지를 영어에서 독일어로 번역하는 방식 비교.

Ollama가 다른 로컬 및 클라우드 LLM 인프라—vLLM, Docker Model Runner, LocalAI 및 클라우드 제공업체와 비교되는 방식을 보고 싶다면 LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교를 확인하세요.

테스트한 세 페이지는 서로 다른 주제에 있었으며, 헤더, 목록, 표, 링크 등 구조가 있는 훌륭한 마크다운이 포함되어 있었습니다.

이 모든 모델은 16GB VRAM을 가진 NVidia GPU에서 실행되었으며, 일부는 VRAM에 완전히 맞았고, 일부(24b 및 30b)는 CPU로 이전되었습니다.

그럼에도 불구하고, 이들도 테스트했습니다.

두 페이지 - 번역 중

테스트한 Ollama 모델:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

모든 모델에 번역 프롬프트를 실행한 후, 저는 스마트한 Anthropic 모델을 사용해 번역의 품질을 분석하고, 각 모델에 대한 메트릭을 제공하도록 요청했습니다.

magistral:24b도 시도했지만, 너무 많이 thinking을 했기 때문에 느리고, 맥락을 모두 소모했습니다. 그래서 - 제 GPU에는 적합하지 않습니다.

간단한 결론: TL;DR

가장 좋은 것은 Mistral Small 3.1 24b입니다. 16GB VRAM에 맞지 않아 제 하드웨어에서 약간 느렸습니다.

다음 두 번째로 좋은 것은 Qwen 3 14b와 Qwen 3 30b입니다. 14b는 잘 맞았지만, 30b는 MoE 모델이기 때문에 매우 빠르기도 했습니다. 제 하드웨어에서 속도는 비슷했습니다.

테스트 1: 철학적 주제

Hugo 기반 웹사이트 페이지의 마크다운은 어떤 멋진 철학적 주제에 관한 것이었습니다 - Ad Baculum 논리적 오류에 대한 설명과 예시입니다.

index.de.devstral-24b.md - 평가: 7/10 장점:

  • 기술 용어 번역이 잘 되었음 (“argumentum ad baculum Fehlschluss”)
  • 적절한 링크 형식과 구조 유지
  • 복잡한 철학적 개념의 정확한 번역
  • 적절한 독일어 문법 및 구문

단점:

  • “verunstaltet"가 “tainted"에 사용되었지만, 약간 부자연스러움; “getrübt"가 더 자연스러움
  • 일부 문장이 약간 강하게 또는 직역적으로 느껴짐
  • 일부 문장에서 약간의 흐름 문제 발생

index.de.mistral-small3.1-24b.md - 평가: 8.5/10 장점:

  • 매우 자연스러운 독일어 흐름
  • 기술 용어의 우수한 번역
  • 원래 의미와 톤의 잘 유지
  • 적절한 문법 및 문장 구조
  • “getrübt"가 “tainted"에 사용되었으며, 더 자연스러움

단점:

  • 용어 일관성에 대한 매우 작은 차이
  • 일부 문장에서 원본 구조와 약간의 편차 발생

index.de.qwen3-8b.md - 평가: 6.5/10 장점:

  • 주요 개념의 정확한 번역
  • 기술 용어의 적절한 처리
  • 기사 구조 유지

단점:

  • 일부 표현이 약간 부자연스러움 (“kann sich auch in alltäglichen Interaktionen breiten”)
  • 여러 문장에서 독일어 흐름이 덜 자연스러움
  • 일부 문법 구조가 강제적으로 느껴짐
  • “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt"에서 단어 누락 (문법 오류)

index.de.qwen3-14b.md - 평가: 8/10 장점:

  • 자연스러운 독일어 흐름
  • 기술 용어의 우수한 처리
  • 원래 의미의 잘 유지
  • 적절한 문법 및 구문
  • 전반적으로 일관된 스타일

단점:

  • 용어 일관성에 대한 약간의 차이
  • 일부 문장이 더 간결할 수 있음

index.de.qwen3-30b-a3b.md - 평가: 7.5/10 장점:

  • 전반적인 번역 품질이 좋음
  • 자연스러운 독일어 표현
  • 기술 용어가 잘 번역됨
  • 가독성과 흐름 유지
  • 의미의 잘 유지

단점:

  • 일부 단어 선택에서 약간의 일관성 문제
  • 가끔 약간 부자연스러운 표현
  • 마지막 단락에서 “über das [Terrain der] Argumentation"에서 어절 누락

평가 순위

파일 번역 품질 점수
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

가장 우수한 번역: index.de.mistral-small3.1-24b.md - 가장 자연스러운 독일어 흐름과 우수한 기술 정확도

개선이 필요한 영역: Qwen3-8b 버전은 문법 수정과 더 자연스러운 표현이 필요하며, 나머지는 단어 선택 및 일관성에 대한 작은 개선이 필요합니다.

테스트 2: Ollama에 호스팅된 Qwen3 Embedding 및 Reranker 모델에 대한 페이지 번역

원문 영어 텍스트와 비교한 독일어 번역 분석을 바탕으로, 품질 점수는 1-10점 척도로 다음과 같습니다:

파일 LLM 모델 번역 품질 점수 설명
index.de.devstral-24b.md Devstral 24B 8.5/10 전체적으로 우수한 번역, 자연스러운 독일어 흐름, 적절한 기술 용어 사용, 모든 Hugo 단축어 보존. 일부 약간 부자연스러운 표현으로 인해 약간 점수가 깎임.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 매우 우수한 번역, 일관된 용어, 자연스러운 독일어, 완벽한 포맷 보존. Devstral보다 약간 더 자연스러운 흐름.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 혼합된 품질 - 개요 문단에서 영어-독일어 혼합 (“The [Qwen3 Embedding and Reranker models]” 대신 전체 독일어 사용). 나머지는 잘 번역되었지만 일관성이 부족함.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 우수한 독일어 번역, 적절한 기술 용어 사용, 자연스러운 흐름. 구조가 잘 구성되어 있고 일관성이 있음.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 매우 우수한 번역 품질, 매우 자연스러운 독일어, 기술 용어 일관성 완벽, 독자성 뛰어남. 가장 우수한 전체 번역.

핵심 평가 기준:

번역에서 관찰된 장점:

  • Hugo 단축어 보존 ({ {< ref >}} 구문)
  • 기술 용어 정확성
  • 마크다운 형식 유지
  • 표 구조 보존
  • 이미지 참조 일관성

품질 차이점:

  1. 언어 일관성 - Qwen3 8B는 영어-독일어 혼합 문제가 있음
  2. 자연스러운 독일어 흐름 - Qwen3 30B가 가장 자연스러운 독일어 표현 달성
  3. 기술 정확성 - 모든 모델이 기술 용어 잘 처리
  4. 포맷 보존 - 모두 Hugo 구조 완벽히 유지

품질 순위:

  1. Qwen3 30B (9.0/10) - 가장 우수
  2. Mistral Small 3.1 24B (8.7/10) - 매우 강력
  3. Devstral 24B (8.5/10) - 우수
  4. Qwen3 14B (8.2/10) - 좋음
  5. Qwen3 8B (6.5/10) - 문제가 있음

더 큰 모델(Qwen3 30B 및 Mistral Small 3.1 24B)이 가장 높은 품질의 번역을 생성했으며, 더 작은 Qwen3 8B 모델은 일관성 측면에서 명확한 한계를 보였습니다.

테스트 3: Ollama와 Qwen3 Embedding 모델을 사용한 재정렬 - Go 언어로

기본적으로 이는 이 웹사이트의 이전 게시물입니다: Ollama와 Qwen3 Embedding 모델을 사용한 텍스트 문서 재정렬 - Go 언어로.

제가 자세히 분석한 독일어 번역에 기반하여, 다음은 비교 평가입니다:

번역 품질 분석 (1-10 척도)

파일 모델 점수 주요 평가
index.de.devstral-24b.md DeVistral 24B 9/10 우수 - 가장 일관되고 전문적인 번역
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 매우 좋음 - 자연스럽지만 약간의 일관성 문제
index.de.qwen3-14b.md Qwen3 14B 7/10 좋음 - 일반적으로 잘 유지되지만 일부 혼합 요소
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 보통 - 일부 영어가 번역되지 않음
index.de.qwen3-8b.md Qwen3 8B 5.5/10 약함 - 여러 번역 실패

자세한 비교 분석:

🥇 DeVistral 24B (9/10) - 우승 장점:

  • 기술 정확성: “ollama API-Fehler” (소문자, 더 자연스러움)
  • 일관된 번역: “handelt mit parallelen Anfragen” (복잡한 표현)
  • 전문성: 전반적으로 완전한 독일어 번역
  • 포맷: 마크다운 구조 완벽히 유지

소소한 문제: 매우 적음, 주로 스타일 선호 문제

🥈 Mistral Small 3.1 24B (8.5/10) 장점:

  • 자연스러운 독일어 흐름
  • 우수한 기술 용어: “Ollama-API-Fehler” (하이픈, 공식 스타일)
  • 일관된 “verarbeitet parallele Anfragen”

문제:

  • 일부 기술 문맥에서 약간 덜 복잡한 표현
  • 약간의 포맷 차이

🥉 Qwen3 14B (7/10) 장점:

  • 일반적으로 의미 유지
  • 적절한 독일어 문법 구조

문제:

  • 일부 부자연스러운 구조
  • 기술 용어에서 혼합된 품질
  • “```” 시작 부분과 포맷 문제 포함

Qwen3 30B (6.5/10) 중요한 결함:

  • 번역되지 않은 영어: “This little"가 독일어 텍스트에 직접 포함됨
  • 더 큰 모델 크기에도 불구하고 번역 불일치
  • 기술 정확성은 있지만, 전달은 결함 있음

Qwen3 8B (5.5/10) 주요 문제:

  • 번역되지 않은 섹션: “This little"가 영어로 남음
  • 불일관된 용어: “RANGORDNUNG” 대신 표준 “RANGIERUNG” 사용
  • 부자연스러운 흐름: 덜 자연스러운 독일어 구조
  • 작은 모델 크기의 명확한 한계 보임

발견된 주요 차이점:

  1. API 오류 번역:

    • DeVistral: ollama API-Fehler (자연스럽고 소문자)
    • 다른 모델: Ollama-API-Fehler (공식적이고 하이픈)
  2. 병렬 요청:

    • DeVistral: “handelt mit parallelen Anfragen” (복잡한 표현)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (표준)
    • Qwen3-8B: “behandelt parallele Anfragen” (덜 정확)
  3. 섹션 헤더:

    • 대부분: “RANGIERUNG NACH ÄHNLICHKEIT” (표준)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (부자연스러움)
  4. 영어 오염:

    • Qwen3-30B & Qwen3-8B: “This little"가 번역되지 않음
    • 다른 모델: “Dieses kleine"로 올바르게 번역

우승자: DeVistral 24B - 가장 일관된 전문적인 독일어 번역을 보여주며, 복잡한 기술 용어와 완전한 언어 전환을 달성했습니다.


하하 DeVistral :) 하지만 이건 또 다른 LLM의 오류입니다.

Ollama와 vLLM, LocalAI, Docker Model Runner 및 클라우드 옵션—번역 또는 기타 워크로드에 어떤 것을 선택해야 하는지에 대한 보다 광범위한 비교를 원하시면, LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교를 참조하세요.

유용한 링크