OLLAMA에서 텍스트 번역에 가장 적합한 LLM은 무엇인가요?

OLLAMA에서 텍스트 번역에 가장 적합한 LLM은 Mistral small 3.1 24b입니다.

Ollama를 다른 LLM 호스팅 옵션과 비교할 수 있는 곳은 어디인가요?

우리의 LLM 호스팅 개요는 Ollama를 vLLM, Docker Model Runner, LocalAI 및 클라우드 제공업체와 비교하며, 비용과 인프라의 장단점을 설명합니다.

이번 번역 모델을 Ollama 외의 다른 백엔드에서 실행할 수 있나요?

예. LLM 호스팅 가이드는 Ollama와 vLLM, LocalAI, Docker Model Runner 및 클라우드 API를 비교하여 사용자 환경에 맞는 백엔드를 선택할 수 있도록 돕습니다.

Hugo 페이지 번역 품질 비교 - Ollama 상의 LLMs

qwen3 8b, 14b 및 30b, devstral 24b, mistral small 24b

Page content

이 테스트에서는 Ollama에 호스팅된 다양한 LLM이 Hugo 페이지를 영어에서 독일어로 번역하는 방식을 비교하고 있습니다. 다른 LLM이 호스팅된 Ollama에서 Hugo 페이지를 영어에서 독일어로 번역하는 방식 비교.

Ollama가 다른 로컬 및 클라우드 LLM 인프라—vLLM, Docker Model Runner, LocalAI 및 클라우드 제공업체와 비교되는 방식을 보고 싶다면 LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교를 확인하세요.

테스트한 세 페이지는 서로 다른 주제에 있었으며, 헤더, 목록, 표, 링크 등 구조가 있는 훌륭한 마크다운이 포함되어 있었습니다.

이 모든 모델은 16GB VRAM을 가진 NVidia GPU에서 실행되었으며, 일부는 VRAM에 완전히 맞았고, 일부(24b 및 30b)는 CPU로 이전되었습니다.

그럼에도 불구하고, 이들도 테스트했습니다.

두 페이지 - 번역 중

테스트한 Ollama 모델:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

모든 모델에 번역 프롬프트를 실행한 후, 저는 스마트한 Anthropic 모델을 사용해 번역의 품질을 분석하고, 각 모델에 대한 메트릭을 제공하도록 요청했습니다.

magistral:24b도 시도했지만, 너무 많이 thinking을 했기 때문에 느리고, 맥락을 모두 소모했습니다. 그래서 - 제 GPU에는 적합하지 않습니다.

간단한 결론: TL;DR

가장 좋은 것은 Mistral Small 3.1 24b입니다. 16GB VRAM에 맞지 않아 제 하드웨어에서 약간 느렸습니다.

다음 두 번째로 좋은 것은 Qwen 3 14b와 Qwen 3 30b입니다. 14b는 잘 맞았지만, 30b는 MoE 모델이기 때문에 매우 빠르기도 했습니다. 제 하드웨어에서 속도는 비슷했습니다.

테스트 1: 철학적 주제

Hugo 기반 웹사이트 페이지의 마크다운은 어떤 멋진 철학적 주제에 관한 것이었습니다 - Ad Baculum 논리적 오류에 대한 설명과 예시입니다.

index.de.devstral-24b.md - 평가: 7/10 장점:

기술 용어 번역이 잘 되었음 (“argumentum ad baculum Fehlschluss”)
적절한 링크 형식과 구조 유지
복잡한 철학적 개념의 정확한 번역
적절한 독일어 문법 및 구문

단점:

“verunstaltet"가 “tainted"에 사용되었지만, 약간 부자연스러움; “getrübt"가 더 자연스러움
일부 문장이 약간 강하게 또는 직역적으로 느껴짐
일부 문장에서 약간의 흐름 문제 발생

index.de.mistral-small3.1-24b.md - 평가: 8.5/10 장점:

매우 자연스러운 독일어 흐름
기술 용어의 우수한 번역
원래 의미와 톤의 잘 유지
적절한 문법 및 문장 구조
“getrübt"가 “tainted"에 사용되었으며, 더 자연스러움

단점:

용어 일관성에 대한 매우 작은 차이
일부 문장에서 원본 구조와 약간의 편차 발생

index.de.qwen3-8b.md - 평가: 6.5/10 장점:

주요 개념의 정확한 번역
기술 용어의 적절한 처리
기사 구조 유지

단점:

일부 표현이 약간 부자연스러움 (“kann sich auch in alltäglichen Interaktionen breiten”)
여러 문장에서 독일어 흐름이 덜 자연스러움
일부 문법 구조가 강제적으로 느껴짐
“ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt"에서 단어 누락 (문법 오류)

index.de.qwen3-14b.md - 평가: 8/10 장점:

자연스러운 독일어 흐름
기술 용어의 우수한 처리
원래 의미의 잘 유지
적절한 문법 및 구문
전반적으로 일관된 스타일

단점:

용어 일관성에 대한 약간의 차이
일부 문장이 더 간결할 수 있음

index.de.qwen3-30b-a3b.md - 평가: 7.5/10 장점:

전반적인 번역 품질이 좋음
자연스러운 독일어 표현
기술 용어가 잘 번역됨
가독성과 흐름 유지
의미의 잘 유지

단점:

일부 단어 선택에서 약간의 일관성 문제
가끔 약간 부자연스러운 표현
마지막 단락에서 “über das [Terrain der] Argumentation"에서 어절 누락

평가 순위

파일	번역 품질 점수
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

가장 우수한 번역: index.de.mistral-small3.1-24b.md - 가장 자연스러운 독일어 흐름과 우수한 기술 정확도

개선이 필요한 영역: Qwen3-8b 버전은 문법 수정과 더 자연스러운 표현이 필요하며, 나머지는 단어 선택 및 일관성에 대한 작은 개선이 필요합니다.

테스트 2: Ollama에 호스팅된 Qwen3 Embedding 및 Reranker 모델에 대한 페이지 번역

원문 영어 텍스트와 비교한 독일어 번역 분석을 바탕으로, 품질 점수는 1-10점 척도로 다음과 같습니다:

파일	LLM 모델	번역 품질 점수	설명
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	전체적으로 우수한 번역, 자연스러운 독일어 흐름, 적절한 기술 용어 사용, 모든 Hugo 단축어 보존. 일부 약간 부자연스러운 표현으로 인해 약간 점수가 깎임.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	매우 우수한 번역, 일관된 용어, 자연스러운 독일어, 완벽한 포맷 보존. Devstral보다 약간 더 자연스러운 흐름.
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	혼합된 품질 - 개요 문단에서 영어-독일어 혼합 (“The [Qwen3 Embedding and Reranker models]” 대신 전체 독일어 사용). 나머지는 잘 번역되었지만 일관성이 부족함.
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	우수한 독일어 번역, 적절한 기술 용어 사용, 자연스러운 흐름. 구조가 잘 구성되어 있고 일관성이 있음.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	매우 우수한 번역 품질, 매우 자연스러운 독일어, 기술 용어 일관성 완벽, 독자성 뛰어남. 가장 우수한 전체 번역.

핵심 평가 기준:

번역에서 관찰된 장점:

Hugo 단축어 보존 ({ {< ref >}} 구문)
기술 용어 정확성
마크다운 형식 유지
표 구조 보존
이미지 참조 일관성

품질 차이점:

언어 일관성 - Qwen3 8B는 영어-독일어 혼합 문제가 있음
자연스러운 독일어 흐름 - Qwen3 30B가 가장 자연스러운 독일어 표현 달성
기술 정확성 - 모든 모델이 기술 용어 잘 처리
포맷 보존 - 모두 Hugo 구조 완벽히 유지

품질 순위:

Qwen3 30B (9.0/10) - 가장 우수
Mistral Small 3.1 24B (8.7/10) - 매우 강력
Devstral 24B (8.5/10) - 우수
Qwen3 14B (8.2/10) - 좋음
Qwen3 8B (6.5/10) - 문제가 있음

더 큰 모델(Qwen3 30B 및 Mistral Small 3.1 24B)이 가장 높은 품질의 번역을 생성했으며, 더 작은 Qwen3 8B 모델은 일관성 측면에서 명확한 한계를 보였습니다.

테스트 3: Ollama와 Qwen3 Embedding 모델을 사용한 재정렬 - Go 언어로

기본적으로 이는 이 웹사이트의 이전 게시물입니다: Ollama와 Qwen3 Embedding 모델을 사용한 텍스트 문서 재정렬 - Go 언어로.

제가 자세히 분석한 독일어 번역에 기반하여, 다음은 비교 평가입니다:

번역 품질 분석 (1-10 척도)

파일	모델	점수	주요 평가
index.de.devstral-24b.md	DeVistral 24B	9/10	우수 - 가장 일관되고 전문적인 번역
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	매우 좋음 - 자연스럽지만 약간의 일관성 문제
index.de.qwen3-14b.md	Qwen3 14B	7/10	좋음 - 일반적으로 잘 유지되지만 일부 혼합 요소
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	보통 - 일부 영어가 번역되지 않음
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	약함 - 여러 번역 실패

자세한 비교 분석:

🥇 DeVistral 24B (9/10) - 우승 장점:

기술 정확성: “ollama API-Fehler” (소문자, 더 자연스러움)
일관된 번역: “handelt mit parallelen Anfragen” (복잡한 표현)
전문성: 전반적으로 완전한 독일어 번역
포맷: 마크다운 구조 완벽히 유지

소소한 문제: 매우 적음, 주로 스타일 선호 문제

🥈 Mistral Small 3.1 24B (8.5/10) 장점:

자연스러운 독일어 흐름
우수한 기술 용어: “Ollama-API-Fehler” (하이픈, 공식 스타일)
일관된 “verarbeitet parallele Anfragen”

문제:

일부 기술 문맥에서 약간 덜 복잡한 표현
약간의 포맷 차이

🥉 Qwen3 14B (7/10) 장점:

일반적으로 의미 유지
적절한 독일어 문법 구조

문제:

일부 부자연스러운 구조
기술 용어에서 혼합된 품질
“```” 시작 부분과 포맷 문제 포함

Qwen3 30B (6.5/10) 중요한 결함:

번역되지 않은 영어: “This little"가 독일어 텍스트에 직접 포함됨
더 큰 모델 크기에도 불구하고 번역 불일치
기술 정확성은 있지만, 전달은 결함 있음

Qwen3 8B (5.5/10) 주요 문제:

번역되지 않은 섹션: “This little"가 영어로 남음
불일관된 용어: “RANGORDNUNG” 대신 표준 “RANGIERUNG” 사용
부자연스러운 흐름: 덜 자연스러운 독일어 구조
작은 모델 크기의 명확한 한계 보임

발견된 주요 차이점:

API 오류 번역:
- DeVistral: ollama API-Fehler (자연스럽고 소문자)
- 다른 모델: Ollama-API-Fehler (공식적이고 하이픈)
병렬 요청:
- DeVistral: “handelt mit parallelen Anfragen” (복잡한 표현)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (표준)
- Qwen3-8B: “behandelt parallele Anfragen” (덜 정확)
섹션 헤더:
- 대부분: “RANGIERUNG NACH ÄHNLICHKEIT” (표준)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (부자연스러움)
영어 오염:
- Qwen3-30B & Qwen3-8B: “This little"가 번역되지 않음
- 다른 모델: “Dieses kleine"로 올바르게 번역

우승자: DeVistral 24B - 가장 일관된 전문적인 독일어 번역을 보여주며, 복잡한 기술 용어와 완전한 언어 전환을 달성했습니다.

하하 DeVistral :) 하지만 이건 또 다른 LLM의 오류입니다.

Ollama와 vLLM, LocalAI, Docker Model Runner 및 클라우드 옵션—번역 또는 기타 워크로드에 어떤 것을 선택해야 하는지에 대한 보다 광범위한 비교를 원하시면, LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교를 참조하세요.

간단한 결론: TL;DR

테스트 1: 철학적 주제

평가 순위

테스트 2: Ollama에 호스팅된 Qwen3 Embedding 및 Reranker 모델에 대한 페이지 번역

테스트 3: Ollama와 Qwen3 Embedding 모델을 사용한 재정렬 - Go 언어로

유용한 링크