논리적 오류 탐지에 있어 어떤 모델들이 비교되었나요?

Gemma2(9b 및 27b), Qwen2(7b 및 72b), Mistral Nemo 12b가 테스트되었으며, 모두 16GB VRAM에 맞거나 부분적으로 맞도록 제한되었습니다.

16GB에 q4가 들어맞는다면 왜 q8 양자화를 사용해야 하나요?

q8가 16GB VRAM에 맞을 때에는 품질 향상을 위해 이를 사용합니다. 이 게시물은 GPU에 맞는 최적의 양자화 방법을 선택하는 방법에 대해 설명합니다.

LLM 성능 벤치마크를 더 많이 찾을 수 있는 곳은 어디인가요?

우리 LLM 성능 허브는 처리량 대 지연 시간, VRAM 제한, 병렬 요청 및 런타임과 하드웨어에 걸친 벤치마크를 다룹니다.

VRAM이 어떤 모델을 벤치마킹할 수 있는지에 어떻게 영향을 미치나요?

16GB VRAM을 사용할 경우, 모델이 적합하도록 quantization(예: q8_0, q3_K_L)을 선택합니다. 더 큰 모델은 CPU offloading을 사용할 수 있습니다. LLM Performance 섹션에서는 VRAM과 속도에 대한 더 많은 정보가 제공됩니다.

이 비교에서 사용된 논리적 오류 테스트는 무엇인가요?

“Logical Fallacy Detection with LLMs” 게시물에서 수행한 동일한 테스트—모델 출력에서 스트라우먼, 어드 호미눔, 레드 헤링 등 다양한 오류 유형을 탐지하는 것.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

논리적 오류 탐지 테스트

Page content

최근 몇몇 새로운 LLM이 출시되었습니다. 흥미로운 시기입니다. 논리적 오류를 감지하는 데 이 모델들이 어떻게 수행되는지 테스트해 보겠습니다.

LLM 성능에 대한 더 많은 정보를 원하시면, 처리량 대 지연 시간, VRAM 제한, 런타임과 하드웨어에 걸친 벤치마크 등에 대해 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조해 주세요.

mistral nemo

무엇을 하고 어떻게 수행하는가

이전 테스트에서 우리는 LLM이 논리적 오류를 감지하는 방법 - llama3 대 phi3 대 다른 모델에 대해 이미 테스트했습니다. 그 결과는 꽤 좋았으며, 특히 llama3-8b-Q8과 phi3-medium-4k-instruct-q6_K의 결과에 놀랐습니다.

이번 테스트에서는 Gemma2, Qwen2, Mistral Nemo를 사용하여 동일한 테스트를 수행합니다.

우리는 최고의 모델들을 테스트하고 있지만, 이들은 우리의 제약 조건을 충족해야 합니다.
즉, 16GB의 VRAM을 갖춘 소비자용 GPU에 맞춰야 합니다.
이러한 기준을 고려하여 다음과 같은 양자화를 선택했습니다:

gemma2:9b-instruct-q8_0
gemma2:27b-instruct-q3_K_L
mistral-nemo:12b-instruct-2407-q8_0
qwen2:7b-instruct-q8_0

그리고 이 qwen2 버전도 테스트해 보겠습니다:

qwen2:72b-instruct-q2_K

이 모델의 크기는 29GB이지만, 그래도 테스트해 보겠습니다.

여기서 주의할 점은 ‘기본’ 양자화 q4로 되돌아가지 않는다는 점입니다.
q8이 우리의 GPU의 16GB VRAM에 맞는 경우, 우리는 그 최선을 시도하고 있습니다.
우리의 상황에서 최선을 다하고 있습니다.

DT;DR: 결과

이전에 테스트한 모델들에 대한 정보는 LLM을 이용한 논리적 오류 감지에서 확인할 수 있습니다.
그 글에서 우리가 테스트한 내용과 지금의 내용을 확인해 주세요.

이제 새롭게 추가된 모델들을 포함한 업데이트된 표입니다. 새로 추가된 모델들은 굵은 글씨로 표시되어 있습니다.

ModelVersion	GPU RAM	A2CS	Straw man	Ad homi-nem	Red Herring	Appeal to igno-rance	Appeal to autho-rity	False dicho-tomy	Hasty Gene-rali-zation	Begging the Ques-tion	Slippery Slope	Post hoc ergo propter hoc	Tu quo-que	Other
l3:8b-i-q4_0	5.8GB	V V	V V	V	V
l3:8b-i-q8_0	9.1GB		V			V	V V	V V
l3:8b-i-fp16	9.1GB		V				V V	V V
p3:3.8b	4.3GB		V V	V			V V		V
p3:3.8b-mini-4k-i-q8_0	5.8GB		V V	V V			V V	V	V V
p3:3.8b-mini-i-4k-fp16	8.9GB		V			V	V V		V	V
p3:14b	9.3GB			V V				V V
p3:14b-m-4k-i-q6_K	12.5GB		V V				V V	V	V
p3:14b-m-4k-i-q8_0	15.3GB			V V			V	V V
mi:7b-i-v0.3-q4_0	4.3GB			V V	V		V V		V V		V V
mi:7b-i-v0.3-q8_0	8.6GB		V V	V V					V V
mi:7b-i-v0.3-fp16	14.7GB						V V		V
ge:7b-i-v1.1-q4_0	7.2GB			V V								V V
ge:7b-i-v1.1-q6_K	9.1GB			V V					V			V V
ge:7b-i-v1.1-fp16	15.5GB			V V								V V	V
qw:14b-chat-v1.5-q8_0	15.2GB		V V	V			V V
qw:7b-chat-v1.5-fp16	15.5GB						V V	V V
qw:32b-chat-v1.5-q3_K_S	15.1GB		V	V			V	V
qw:32b-chat-v1.5-q3_K_M	15.4GB		V V	V V			V V	V V
ge2:9b-i-q8_0	9.0GB						V V	V V
ge2:27b-i-q3_K_L	14.0GB			V			V V
mi-nemo:12b-i-.q8_0	13.0GB			V	V		V	V
qw2:7b-i-q8_0	8.1GB			V	V V		V V							V
qw2:72b-i-q2_K	29.0GB						V V							V

논리적 오류 이름의 약어: A 2 CS=Appeal to common sense

모델 이름의 약어:

l3=llama3
p3=phi3
i=instruct
m=medium
mi=mistral
ge=gemma
qw=qwen
ge2=gemma2
qw2=qwen2

과도한 단순화=False dichotomy

결론

우리는 LLM이 샘플 텍스트에서 Strawman 오류, Ad Hominem, Appeal to authority 및 Oversimplification을 찾기를 기대합니다.

대부분의 새 모델들은 우리의 샘플 텍스트에서 Appeal to Authority를 인식하고, 일부는 Ad Hominem, 일부는 Oversimplification을 인식합니다.
좋은 결과를 보인 모델은 qwen2:7b-instruct-q8_0과 gemma2:9b-instruct-q8_0입니다.

하지만 여전히 우승자는 같습니다.

“편집자의 선택” 모델은 phi3:14b-medium-4k-instruct-q6_K입니다.
이 모델은 16GB RAM에 매우 쉽게 맞고, 상당히 똑똑합니다.
두 번째는 phi3:3.8b-mini-4k-instruct-q8_0입니다.
llama3 모델 그룹도 좋습니다.

Mistral Nemo

Mistral Nemo의 결과를 먼저 살펴보겠습니다.
그들은 최고가 아니지만, 그들의 이미지에 멋진 로봇이 있기 때문입니다.

Mistral nemo 12b

모델: mistral-nemo:12b-instruct-2407-q8_0

응답:

제공하신 문장에는 두 가지 주요 논리적 오류가 포함되어 있습니다:

Appeal to Authority (Argumentum ad Verecundiam): 말하는 사람이 이전 홈 어파울스 장관의 권위에 의존하지만, 이 사람으로부터 구체적인 주장이나 증거를 제공하지 않습니다. 그저 이 사람이 특정 직책을 맡았기 때문에 그의 의견이 유효하다고 가정합니다.
- 오류: “이전 홈 어파울스 장관이 알아야 할 것이다.”
Red Herring (Irrelevant Conclusion): 말하는 사람은 처음에는 “사람이 너무 많고, 집이 부족하다"는 것처럼 합리적인 주장으로 시작하지만, 이를 반박하는 어떤 주장이나 증거를 제공하지 않고, 이전 장관의 권위에 의존합니다.
- 오류: “처음에는 모든 것이 완전히 합리적으로 보일 수 있지만, 결코 그렇게 간단하지 않다…”

문장 자체는 감정적인 언어를 명시적으로 사용하지 않았지만, 권위에 대한 호소와 레드 헤링 오류는 넓은 의미에서 감정에 호소하는 형태로 간주될 수 있습니다. 이는 논리적 논증보다 다른 요소를 기반으로 청중을 설득하려는 시도이기 때문입니다.

제공하신 문장에는 몇 가지 논리적 오류가 포함되어 있습니다:

Ad Hominem: 이는 주장 자체보다 주장하는 사람을 공격하는 것입니다. 이 경우, 이전 홈 어파울스 장관의 경험을 언급하여 그가 단순하게 생각하는 것을 이해하지 못한다고 암시하고 있습니다. 이 문장은 그의 이해 부족(또는 오해)이 그의 이전 직책 때문이라고 암시하며, 주장의 본질을 다루지 않고 있습니다.
Appeal to Complexity: 이 오류는 복잡성이라는 이유로 깊이 생각하지 않거나, 자신의 입장에 반대되는 증거나 논리를 무시하는 경우 발생합니다. 이 맥락에서 “결코 그렇게 간단하지 않다"는 문장은 초기 주장에 대한 논의를 없애려는 방식으로 해석될 수 있습니다.

문장 자체에는 명백한 감정 호소가 없지만, Ad Hominem과 Appeal to Complexity와 같은 오류는 종종 “너는 그렇게 말해야 할 것이다, 그렇지 않으면 불편할 것이다"와 같은 문장처럼 감정을 암시적으로 호소할 수 있습니다.

따라서, 이 문장에는 실제로 논리적 오류가 포함되어 있지만, 명확히 감정에 호소하는 것은 아닙니다.

Gemma 2 - 9b

Gemma 2 로고

모델: gemma2:9b-instruct-q8_0

응답:

“처음에는 모든 것이 완전히 합리적으로 보일 수 있지만, 결코 그렇게 간단하지 않다, 이전 홈 어파울스 장관이 알아야 할 것이다"라는 문장에는 몇 가지 논리적 오류가 포함되어 있습니다:

Appeal to Authority: 이 문장은 “이전 홈 어파울스 장관"이라는 인물의 권위에 의존하여 초기 주장에 대한 반박을 시도하고 있습니다. 말하는 사람은 이 사람이 권력을 가졌기 때문에 그의 의견이 자동적으로 더 무게를 가진다고 가정합니다. 이 오류는 이 장관이 틀릴 수 있거나, 그의 전문성이 이 특정 상황에 적용되지 않을 수도 있다는 가능성을 무시합니다.
Pooh-Pooh: “결코 그렇게 간단하지 않다"는 문장은 초기 주장에 대한 어떤 실제 반박이나 증거를 제공하지 않고, 대화를 종료하려는 목적으로 사용됩니다. 이는 제시된 아이디어와의 대화보다는 단순히 대화를 종료하려는 목적으로 사용됩니다.

다른 예시의 논리적 오류를 탐구하고 싶으시면 알려주세요!

Appeal to Authority: 이 문장은 “이전 홈 어파울스 장관"이라는 인물을 언급함으로써 그의 의견이 더 무게를 가한다고 암시합니다. 이는 이전 장관이 자동적으로 이 특정 문제에 대한 전문성을 가진다고 가정합니다.
Pooh-Pooh: “결코 그렇게 간단하지 않다"는 문장은 초기의 간단한 논리를 무시하고 복잡성을 강조하려는 방식으로 해석될 수 있습니다. 이는 구체적인 반박이나 복잡성의 탐구 없이 단순히 초기 주장에 대한 반박을 시도하는 것입니다.

다른 문장이나 주장의 오류를 분석하고 싶으시면 알려주세요!

Gemma 2 - 27b

모델: gemma2:27b-instruct-q3_K_L

응답:

“결코 그렇게 간단하지 않다, 이전 홈 어파울스 장관이 알아야 할 것이다"라는 문장은 Appeal to Authority 오류를 사용하고 있습니다.

이유는 다음과 같습니다:

전문성을 가정함: 이 문장은 이 사람이 이전 홈 어파울스 장관이기 때문에, 복잡한 사회 문제인 주택 부족에 대한 특별한 지식을 가졌다고 암시합니다.
전문성은 항상 관련되지 않음: 이전 장관은 주택 정책에 대해 어느 정도의 통찰을 가질 수 있지만, 그의 경험은 주택 부족의 원인에 대한 모든 요소에 대한 전문성을 보장하지 않습니다.

이 문장은 “사람이 너무 많고, 집이 부족하다"라는 잠재적으로 유효한 주장(이유)을 단순히 이 분야에 대한 전문성이 없는 사람의 주장으로 인해 무시하려는 시도입니다.

다른 문장을 분석하고 싶으시면 알려주세요!

제공하신 문장에는 몇 가지 논리적 오류의 요소가 포함되어 있지만, 명확하게 단일 사례로는 분류되지 않습니다:

Appeal to Authority (약한): “이전 홈 어파울스 장관이 알아야 할 것이다.” 이는 주장에 무게를 주기 위해 이전 권위를 언급하려는 시도입니다. 그러나 이는 장관이 자신의 입장을 뒷받침하는 구체적인 전문성이나 논리를 제공하지 않기 때문에 약한 주장입니다.
Ad Hominem (잠재적): 맥락과 어조에 따라, 이 문장은 단순히 주장하는 사람을 기반으로 반론을 제기하려는 경우에 Ad Hominem 공격으로 간주될 수 있습니다. 예를 들어, 이 사람이 주택 정책을 이해하지 못한다고 주장하는 경우, 이는 Ad Hominem입니다.

중요한 주의사항: 추가적인 맥락과 전체적인 어조에 대한 정보가 없기 때문에, 이들을 강한 오류 사례로 분류하는 것은 어렵습니다.

다른 문장을 분석하고 싶으시면 알려주세요!

Qwen 2 - 7b

Qwen 2 로고

모델: qwen2:7b-instruct-q8_0

응답:

제공하신 문장에는 여러 논리적 오류가 포함되어 있습니다:

Appeal to Emotions (Argumentum ad Passiones): “처음에는 모든 것이 완전히 합리적으로 보일 수 있지만"이라는 문장은 청중의 이성과 간단함을 유도하려는 시도를 포함하고 있습니다. 이는 구체적인 증거나 논리를 제공하지 않습니다.
Red Herring Fallacy: “이전 홈 어파울스 장관이 알아야 할 것이다"라는 문장은 주요 문제에서 주의를 분산시키려는 무관한 지점(특정 개인의 지식)을 언급합니다. 이는 청중이 그 사람의 전문성이 관련되어 있을 수 있다고 생각하게 하여, 실제로는 그렇지 않을 수도 있습니다.
Appeal to Authority Fallacy: 이 문장에서 명확히 언급되지는 않았지만, “이전 홈 어파울스 장관"이 알고 있다고 주장하는 경우, 이는 권위에 대한 호소 오류로 간주됩니다. 이는 그의 직책이 그 문제에 대한 전문성을 자동으로 부여한다고 가정합니다.

이러한 논리적 오류는 감정에 호소하는 대신 논리와 관련성을 무너뜨릴 수 있습니다.

제공하신 문장:

“처음에는 모든 것이 완전히 합리적으로 보일 수 있지만, 결코 그렇게 간단하지 않다, 이전 홈 어파울스 장관이 알아야 할 것이다.”

에는 당신의 목록에 언급된 Appeal to Emotions (Appealum ad passiones) 오류는 포함되어 있지 않습니다. 그러나 잠재적인 논리적 오류는 다음과 같습니다:

Ad Hominem: 이 인용문이 특정 인물(“이전 홈 어파울스 장관”)을 공격하는 데 사용된다면, 그의 주장 자체에 대한 대응이 아닌 경우, 이는 Ad Hominem 오류입니다.
Red Herring Fallacy: 원래의 문제나 주장에서 주의를 분산시키기 위해 무관한 주제를 언급하려는 시도가 있을 수 있습니다. 그러나 제공된 문장에는 명확한 Red Herring은 없습니다.

“Appeal To Emotions"에 포함되지 않은 다른 오류들도 있습니다:

False Dilemma: 복잡한 문제를 이분법적으로 단순화하여 토론할 수 없는 방식으로 제시하는 경우. 제공된 문장은 이러한 오류를 암시하지 않습니다.
Appeal to Authority: 유명한 사람의 의견이나 신분을 유효한 증거 대신 사용하여 주장하는 경우. 이 인용문에서는 아무런 권위도 언급되지 않았기 때문에 적용되지 않습니다.

분석하고자 하는 특정 문장이 있다면 알려주세요, 도와드리겠습니다.