Gemma2 vs Qwen2 vs Mistral Nemo vs...

論理的誤謬の検出のテスト

目次

最近、いくつかの新しいLLMがリリースされました。
非常にエキサイティングな時代です。
論理的誤謬の検出能力を確認するためにテストしてみましょう。

LLMのパフォーマンスに関する詳細情報(スループットとレイテンシー、VRAMの限界、およびランタイムやハードウェアにわたるベンチマーク)については、LLMパフォーマンス: ベンチマーク、ボトルネック&最適化を参照してください。

Mistral Nemoを紹介

何をどのように行うか

以前のテストでは、LLMが論理的誤謬を検出する - llama3 vs phi3 vs その他でLLMが論理的誤謬を検出する方法をテストしました。
それらは非常にうまく機能しており、llama3-8b-Q8とphi3-medium-4k-instruct-q6_Kの結果に非常に満足していました。

このテストでは、Gemma2、Qwen2、Mistral Nemoを使用して同じことを行います。

できるだけ良いモデルをテストしていますが、それらは私たちの制限に合う必要があります。
それは、16 GBのVRAMを持つコンシューマーグレードGPUに適合しなければなりません。
この基準を考慮して、以下の量子化を選択しました:

  • gemma2:9b-instruct-q8_0
  • gemma2:27b-instruct-q3_K_L
  • mistral-nemo:12b-instruct-2407-q8_0
  • qwen2:7b-instruct-q8_0

そしてこのqwen2バージョン:

  • qwen2:72b-instruct-q2_K

サイズは29GBですが、それでもテストしてみましょう。

ここでは、デフォルトの量子化q4を使用してフォールバックしないことに注意してください。
q8が私たちのGPUの16GB VRAMに適合する場合、それを使うようにします。
状況に応じて最善を尽くします。

DT;DR: 結果

以前にテストしたモデルは
LLMによる論理的誤謬の検出に記載されています。
その投稿でテストした内容と今テストしている内容をご覧ください。

ここに更新された表を示します。新しいモデルは太字で表示されています。

ModelVersion GPU RAM A2CS Straw man Ad homi-nem Red Herring Appeal to igno-rance Appeal to autho-rity False dicho-tomy Hasty Gene-rali-zation Begging the Ques-tion Slippery Slope Post hoc ergo propter hoc Tu quo-que Other
l3:8b-i-q4_0 5.8GB V V V V V V
l3:8b-i-q8_0 9.1GB V V V V V V
l3:8b-i-fp16 9.1GB V V V V V
p3:3.8b 4.3GB V V V V V V
p3:3.8b-mini-4k-i-q8_0 5.8GB V V V V V V V V V
p3:3.8b-mini-i-4k-fp16 8.9GB V V V V V V
p3:14b 9.3GB V V V V
p3:14b-m-4k-i-q6_K 12.5GB V V V V V V
p3:14b-m-4k-i-q8_0 15.3GB V V V V V
mi:7b-i-v0.3-q4_0 4.3GB V V V V V V V V V
mi:7b-i-v0.3-q8_0 8.6GB V V V V V V
mi:7b-i-v0.3-fp16 14.7GB V V V
ge:7b-i-v1.1-q4_0 7.2GB V V V V
ge:7b-i-v1.1-q6_K 9.1GB V V V V V
ge:7b-i-v1.1-fp16 15.5GB V V V V V
qw:14b-chat-v1.5-q8_0 15.2GB V V V V V
qw:7b-chat-v1.5-fp16 15.5GB V V V V
qw:32b-chat-v1.5-q3_K_S 15.1GB V V V V
qw:32b-chat-v1.5-q3_K_M 15.4GB V V V V V V V V
ge2:9b-i-q8_0 9.0GB V V V V
ge2:27b-i-q3_K_L 14.0GB V V V
mi-nemo:12b-i-.q8_0 13.0GB V V V V
qw2:7b-i-q8_0 8.1GB V V V V V V
qw2:72b-i-q2_K 29.0GB V V V

論理的誤謬名の略記: A 2 CS=Appeal to common sense

モデル名の略記:

  • l3=llama3
  • p3=phi3
  • i=instruct
  • m=medium
  • mi=mistral
  • ge=gemma
  • qw=qwen
  • ge2=gemma2
  • qw2=qwen2

過度な単純化=False dichotomy

結論

LLMsはサンプルテキストからStrawman誤謬、Ad Hominem、Appeal to authority、およびOversimplificationを発見することを期待しています。

新しいモデルの多くは、私たちのサンプルテキストからAppeal to Authorityを検出しており、一部はAd Hominem、一部はOversimplificationを検出しています。
良い結果を示したのは、qwen2:7b-instruct-q8_0とgemma2:9b-instruct-q8_0です。

しかし、勝者たちは依然として変わりません。

「編集者の選択」モデルはphi3:14b-medium-4k-instruct-q6_Kです。
16GB RAMに簡単に収まり、非常に賢いです。
2位はphi3:3.8b-mini-4k-instruct-q8_0です。
llama3モデルのグループも良い結果を示しています。

Mistral Nemo

Mistral Nemoの結果を最初にレビューしましょう、彼らは最善ではないかもしれませんが、画像に魅力的なロボットがあるからです。

Mistral Nemo 12b

モデル: mistral-nemo:12b-instruct-2407-q8_0

応答:

提供された文には2つの主な論理的誤謬があります:

  1. Appeal to Authority (Argumentum ad Verecundiam): 話者は、元のホームアファイアス大臣の権威に訴えるだけで、この人物から具体的な議論や証拠を提供しません。彼らは単に、この人物が特定の地位を保持しているから、その意見が有効であると仮定します。

    • 誤謬: “元のホームアファイアス大臣として知っている”。
  2. Red Herring (Irrelevant Conclusion): 話者は、一見して合理的な議論(“人口が多すぎる、住宅が足りない”)を提示しますが、その後、反対意見や証拠を提供せずにこれを無視します。代わりに、元の大臣の権威に訴えます。

    • 誤謬: “見てください、一見して完全に合理的に聞こえる: 人口が多すぎる、住宅が足りない。しかし、それは決して単純ではありません…”

この文は明確に感情的な言葉を使用していませんが、権威への訴えとレッド・ヒアリングの誤謬は、理性的な議論に基づくのではなく、他の要因に基づいて聴衆を説得しようとしているため、広い意味で感情への訴えと見なされることがあります。


提供された文にはいくつかの論理的誤謬が含まれています:

  1. Ad Hominem: これは、議論そのものではなく、議論をした人物に向けられた攻撃です。この場合、元のホームアファイアス大臣の経験があるから、彼らが単純ではないことを知っていると示唆しています。この文は、彼らの理解(または誤解)が以前の役職によるものであると示唆しており、議論の本質を解決していません。

  2. Appeal to Complexity: この誤謬は、複雑さを理由に、深く考えずに問題を放っておくことや、自分の立場に反する証拠や論理を無視することに使われます。この文脈では、「それは決して単純ではない」という表現は、初期の議論を直接的に対処することなく、その妥当性を無視する方法と見なすことができます。

この文自体には明確な感情への訴えはありませんが、Ad HominemやAppeal to Complexityなどの誤謬の使用は、単純化された議論に対する不満や苛立ちなどの感情に微妙に訴えることがあります。しかし、これらは「あなたが同意しなければ、悪い気分になるだろう」といったような直接的な感情への訴えとは異なります。

したがって、この文には確かに論理的誤謬が存在しますが、それらは明確な感情への訴えではありません。

Gemma 2 - 9b

Gemma 2 ロゴ

モデル: gemma2:9b-instruct-q8_0

応答:

「見てください、最初に見れば、完全に合理的に聞こえる: 人口が多すぎる、住宅が足りない。しかし、それは決して単純ではない、元のホームアファイアス大臣が知っているように」という文にはいくつかの論理的誤謬が含まれています:

  • Appeal to Authority: この文は、「元のホームアファイアス大臣」の権威に依存して初期の議論を否定しています。話者は、この人物が権力の地位を保持しているから、その意見が自動的に重みを持つと仮定しています。この誤謬は、大臣が間違っている可能性や、その専門性がこの特定の状況に適用されない可能性を無視しています。

  • Pooh-Pooh: 「それは決して単純ではない」という表現は、実際の反対意見や証拠を提供することなく、初期の議論を無視しています。これは、提示されたアイデアと対話するのではなく、会話を終わらせようとする消極的な発言です。

他の論理的誤謬の例を探したい場合はお知らせください!


「見てください、最初に見れば、完全に合理的に聞こえる: 人口が多すぎる、住宅が足りない。しかし、それは決して単純ではない、元のホームアファイアス大臣が知っているように」という文にはいくつかの論理的誤謬が含まれています:

  • Appeal to Authority: この文は、話者が「元のホームアファイアス大臣」を言及しているため、その意見がより重みを持つことを暗に示しています。これは、元の大臣がこの特定の問題について自動的に専門知識を持っていることを仮定しています。

  • Pooh-Pooh: 「それは決して単純ではない」という表現は、単純な推論を無視し、実質的な反対意見や複雑さを探索することなく、この議論を無視する形のポーポーと見なされることがあります。

他の文や議論を誤謬の分析にしたい場合はお知らせください!

Gemma 2 - 27b

モデル: gemma2:27b-instruct-q3_K_L

応答:

「しかし、それは決して単純ではない、元のホームアファイアス大臣が知っているように」という文は、Appeal to Authorityの誤謬を用いています。

その理由は以下の通りです:

  • 専門性の仮定: この文は、人物が元のホームアファイアス大臣であるため、住宅不足などの複雑な社会問題に関する特別な知識を持っていることを示唆しています。
  • 専門性の関連性: 元の大臣は、住宅政策に関する洞察を持っているかもしれませんが、その経験が住宅不足のすべての要因についての専門知識を保証するわけではありません。

この文は、潜在的に有効な議論(「人口が多すぎる、住宅が足りない」)を単に、専門性が場に不適切であることを示唆するだけで無視しようとしています。

他の文を分析したい場合はお知らせください!


この文にはいくつかの論理的誤謬に類似する要素が含まれていますが、それは明確なケースではありません:

  • Appeal to Authority (弱い): 「元のホームアファイアス大臣が知っているように」という表現は、話者の以前の権威に重みを与えることで議論を強化しようとしています。しかし、これは大臣の具体的な専門性や理由を提供しないため、弱いです。

  • Ad Hominem (可能性あり): コンテキストやトーンに応じて、この文は議論の内容ではなく、議論をした人物に基づいて反対の議論を無効化しようとするad hominem攻撃と見なされることがあります。例えば、人物が住宅政策を理解できないという理由で、大臣であることを示唆する場合です。

重要な注意: さらに文脈やトーンについての情報がなければ、これらの誤謬が強い例として分類するのは困難です。

他の文を分析したい場合はお知らせください!

Qwen 2 - 7b

Qwen 2 ロゴ

モデル: qwen2:7b-instruct-q8_0

応答:

提供された文にはいくつかの論理的誤謬が含まれています:

  1. Appeal to Emotions (Argumentum ad Passiones): 「見てください、最初に見れば、完全に合理的に聞こえる」という文は、実証的な証拠や議論を提供することなく、聴衆の心に合理性や単純さを感じさせるように試みています。
  2. Red Herring Fallacy: 「元のホームアファイアス大臣が知っている」という表現は、主な問題から注意を逸らすための不関係なポイント(特定の個人の知識)を提示し、聴衆にその人物の専門性が関連性があると誤解させることで、潜在的に誤導する可能性があります。
  3. Appeal to Authority Fallacy: この文では明確に述べられていませんが、もし誰かが「元のホームアファイアス大臣」が何かを知っていると主張するなら、それはその地位が彼らの専門知識を保証していると仮定するAppeal to Authorityの誤謬になります。

これらの論理的誤謬は、感情に訴えることにより、論理と関連性を損なう可能性があります。


提供された文:

「見てください、最初に見れば、完全に合理的に聞こえる: 人口が多すぎる、住宅が足りない。しかし、それは決して単純ではない、元のホームアファイアス大臣が知っているように。」

には、あなたのリストに記載された**Appeal to Emotions (Appealum ad passiones)**の誤謬は含まれていません。しかし、いくつかの潜在的な論理的誤謬は以下のようにあります:

  • Ad Hominem: この引用が特定の個人(「元のホームアファイアス大臣」)を攻撃するために使用される場合。
  • Red Herring Fallacy: 元の問題や議論から注意を逸らすために不関係なトピックを提示する可能性がありますが、提供された文には明確なレッド・ヒアリングは見られません。

「Appeal To Emotions」に記載されていない他の誤謬も含まれています:

  • False Dilemma: 複雑な問題を単純な二項論理で提示し、十分に議論できないようにする。提供された文にはこの種の誤謬は含まれていません。
  • Appeal to Authority: 有名な人物の意見やアイデンティティを使用して議論を裏付ける。あなたの引用では、権威は言及されていないため、適用できません。

分析したい特定の文があればお知らせください。

Qwen 2 - 72b

ご存知のように、これは私たちのカテゴリから外れていますが、ただの好奇心からです…

モデル: qwen2:72b-instruct-q2_K

応答:

提供された文には直接的にAppeal to Emotionsの論理的誤謬は含まれていませんが、Appeal to AuthorityまたはArgument from authorityの潜在的な論理的誤謬が含まれています。これは、話者が「元のホームアファイアス大臣」がよりよく知っていることを示唆しており、その権威により、単純な説明の有効性を否定していることを示しています。

この文は直接的に感情への訴えを用いていませんが、元のホームアファイアス大臣の仮定された知識の権威を用いて、提示された議論の単純性を否定しています。これは文の構造に現れています: 「しかし、それは決して単純ではない、元のホームアファイアス大臣が知っているように。」

要約すると:

  • 存在する論理的誤謬: Appeal to authority
  • 定義: Appeal to authorityは、主張が強さではなく、主張をした人物の信頼性または専門性に基づいて真であるとされる論理的誤謬です。
  • 文における例: 「元のホームアファイアース大臣が知っているように」という表現は、その人物の経験が単純な説明を否定するためのより重い重みをもたらすことを示唆しています。

提供された文は、特定の感情的反応を必ずしも引き起こすわけではありませんが、聴衆の知識と経験に訴えることで、単純な説明が物語の全体像を語っていないことを示唆しています。しかし、感情的訴えを分析する場合:

Appeal to Authority: 「元のホームアファイアス大臣」がよりよく知っていることを間接的に参照しており、これは、権威(私たちが尊重し、敬意を払う)を用いて問題の複雑性を強調する間接的な試みと見なされることがあります。

この文は直接的に恐怖、罪悪感、馬鹿げた言葉、怒り、恨み、嫌悪、奉承、憐れみ、愛国心、ポーポーなどの感情的訴えを用いていませんが、権威への参照(権威への尊重と敬意)を用いて、問題が単に「多くの人々がいて家が足りない」ことを責めることのない複雑性を強調しています。これはまた関連する:

Appeal to Reason: これは、単純な解決策を超越して、問題がより深い原因や複雑な原因を持っている可能性があることを聴衆に促すものです。

全体的に、この文には明確な感情的訴えは見られませんが、権威と理性的な判断を用いて、問題の複雑性を強調しており、これは、理性的な意思決定において尊重される側面です。これは、感情的なバイアスや社会的な不安を無視した論理的誤謬の戦略的な利用を示しています。

より詳細な文脈が必要な場合もありますが、この文は、論理的誤謬が感情を操作する可能性があることを示す価値があります。

要約すると:

  • 文は権威(「元のホームアファイアス大臣」)を参照しており、潜在的に尊重や信頼を引き起こす(内部知識があることを示唆している)。
  • 簡単な説明が脅威である可能性を潜在的に引き起こす(しかし、恐怖戦術は明確には用いられていない)。
  • より詳細な文脈が必要な場合もありますが、感情的訴えの分類は、文自体の外の聴衆の感情的な関係に依存しています。

記憶してください、誤謬は通常論理の誤りを伴いますが、しばしば感情に影響される個人的なバイアスや社会的な不安と結びついています。この文の含意は、聴衆が広い対話の中で無意識に結びつける可能性があるため、慎重に解釈する価値があります。

16GBのGPUにわたるベンチマーク、VRAM、モデル選択、パフォーマンスチューニングについてさらに詳しく知りたい場合は、LLMパフォーマンス: ベンチマーク、ボトルネック&最適化ハブを参照してください。

有用なリンク