Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testen van het detecteren van logische fouten

Inhoud

Onlangs hebben we meerdere nieuwe LLMs gezien die zijn vrijgegeven. Opwindende tijden. Laten we testen en zien hoe ze presteren bij het detecteren van logische fouten.

Voor meer informatie over LLM-prestaties—doorstroming versus latentie, VRAM-limieten en benchmarks over runtime en hardware—zie LLM-prestaties: benchmarks, bottlenecks & optimalisatie.

Presenting mistral nemo

Wat en hoe we doen

In eerdere tests hebben we al getest hoe LLM’s logische fouten detecteren - llama3 versus phi3 versus anderen. Ze doen het vrij goed, we hielden het resultaat van llama3-8b-Q8 en phi3-medium-4k-instruct-q6_K erg graag.

In deze test doen we hetzelfde met Gemma2, Qwen2 en Mistral Nemo.

We testen de beste modellen die mogelijk zijn, maar ze moeten aan onze beperkingen voldoen – ze moeten passen in onze consumer-grade GPU, die 16 GB VRAM heeft. Met deze criteria in gedachten hebben we de volgende kwantificaties gekozen:

  • gemma2:9b-instruct-q8_0
  • gemma2:27b-instruct-q3_K_L
  • mistral-nemo:12b-instruct-2407-q8_0
  • qwen2:7b-instruct-q8_0

en deze qwen2-versie:

  • qwen2:72b-instruct-q2_K

Het heeft een grootte van 29 GB, maar laten we het toch testen.

Let op dat we hier niet teruggaan naar de ‘default’ kwantificatie q4. Als q8 past in onze GPU’s 16 GB VRAM – dan gaan we er gewoon voor, proberen het beste mogelijke in onze omstandigheden.

DT;DR: Het resultaat

Vorige modellen die we hebben getest in Logische foutdetectie met LLMs. Zie in dat bericht wat we testen en nu.

Hier is een bijgewerkte tabel waarin onze nieuwe modellen in vet staan.

ModelVersion GPU RAM A2CS Straw man Ad homi-nem Red Herring Appeal to igno-rance Appeal to autho-rity False dicho-tomy Hasty Gene-rali-zation Begging the Ques-tion Slippery Slope Post hoc ergo propter hoc Tu quo-que Other
l3:8b-i-q4_0 5.8GB V V V V V V
l3:8b-i-q8_0 9.1GB V V V V V V
l3:8b-i-fp16 9.1GB V V V V V
p3:3.8b 4.3GB V V V V V V
p3:3.8b-mini-4k-i-q8_0 5.8GB V V V V V V V V V
p3:3.8b-mini-i-4k-fp16 8.9GB V V V V V V
p3:14b 9.3GB V V V V
p3:14b-m-4k-i-q6_K 12.5GB V V V V V V
p3:14b-m-4k-i-q8_0 15.3GB V V V V V
mi:7b-i-v0.3-q4_0 4.3GB V V V V V V V V V
mi:7b-i-v0.3-q8_0 8.6GB V V V V V V
mi:7b-i-v0.3-fp16 14.7GB V V V
ge:7b-i-v1.1-q4_0 7.2GB V V V V
ge:7b-i-v1.1-q6_K 9.1GB V V V V V
ge:7b-i-v1.1-fp16 15.5GB V V V V V
qw:14b-chat-v1.5-q8_0 15.2GB V V V V V
qw:7b-chat-v1.5-fp16 15.5GB V V V V
qw:32b-chat-v1.5-q3_K_S 15.1GB V V V V
qw:32b-chat-v1.5-q3_K_M 15.4GB V V V V V V V V
ge2:9b-i-q8_0 9.0GB V V V V
ge2:27b-i-q3_K_L 14.0GB V V V
mi-nemo:12b-i-.q8_0 13.0GB V V V V
qw2:7b-i-q8_0 8.1GB V V V V V V
qw2:72b-i-q2_K 29.0GB V V V

Kortingen in logische foutnamen: A 2 CS=Appeal to common sense

Kortingen in modelnamen:

  • l3=llama3
  • p3=phi3
  • i=instruct
  • m=medium
  • mi=mistral
  • ge=gemma
  • qw=qwen
  • ge2=gemma2
  • qw2=qwen2

Oversimplificatie=False dichotomy

Conclusie

We verwachten dat LLMs in voorbeeldtekst de Strawman-fout, Ad Hominem, Appeal to authority en Oversimplificatie detecteren.

De meeste nieuwe modellen kunnen in onze voorbeeldtekst Appeal to Authority zien, en sommige zien Ad Hominem, enkele Oversimplificatie. Goede resultaten toonden qwen2:7b-instruct-q8_0 en gemma2:9b-instruct-q8_0.

Maar toch, de winnaars blijven hetzelfde.

Het “Editor’s choice”-model is phi3:14b-medium-4k-instruct-q6_K. Het past gemakkelijk in 16 GB RAM, en is vrij slim. De tweede plek is voor phi3:3.8b-mini-4k-instruct-q8_0. De groep van llama3-modellen is ook goed.

Mistral Nemo

Laten we eerst de resultaten van Mistral Nemo bekijken, ook al zijn ze niet de beste, omdat ze een aantrekkelijke robot hebben op hun afbeelding.

Mistral nemo 12b

Model: mistral-nemo:12b-instruct-2407-q8_0

Reactie:

De zin die u hebt gegeven bevat twee hoofdlogische fouten:

  1. Appeal to Authority (Argumentum ad Verecundiam): De spreker beroept zich op de autoriteit van een voormalig minister van Binnenlandse Zaken zonder enige specifieke argumenten of bewijzen van deze persoon te geven. Ze nemen gewoon aan dat omdat deze persoon een bepaalde functie had, hun mening als geldig moet worden geaccepteerd.

    • Fout: “als een voormalig minister van Binnenlandse Zaken zou moeten weten.”
  2. Red Herring (Irrelevant Conclusion): De spreker begint met het presenteren van wat lijkt een redelijke argument (“te veel mensen, te weinig huizen”) maar verwerpt het vervolgens zonder enige tegenargumenten of bewijzen. In plaats daarvan beroept hij zich op de autoriteit van de voormalige minister.

    • Fout: “Kijk, op eerste gezicht klinkt het allemaal perfect redelijk: te veel mensen, te weinig huizen. Maar het is nooit zo eenvoudig…”

Hoewel de zin geen expliciete gebruik maakt van emotionele taal, kunnen de beroepen op autoriteit en de red herring-fouten nog steeds worden beschouwd als vormen van beroep op emotie in een bredere zin, omdat ze proberen de luisteraar te overtuigen op basis van factoren buiten rationele argumentatie.


Op basis van de zin die u hebt gegeven, zijn er een paar logische fouten aanwezig:

  1. Ad Hominem: Dit is een aanval gericht op de persoon die het argument maakt, in plaats van het argument zelf. In dit geval wordt impliciet aangegeven dat omdat de spreker ervaring heeft als voormalig minister van Binnenlandse Zaken, ze moeten weten dat dingen niet eenvoudig zijn. De zin suggereert dat hun onbegrip (of misschien onbegrip) het gevolg is van hun vorige functie, in plaats van de inhoud van het argument aan te pakken.

  2. Appeal to Complexity: Deze fout treedt op wanneer iemand complexiteit gebruikt als een excuus om niet diep na te denken over een kwestie of om bewijs of redenering te negeren die in strijd is met zijn eigen standpunt. In dit geval kan “het is nooit zo eenvoudig” worden gezien als een manier om het oorspronkelijke argument te negeren zonder daadwerkelijk zijn voordelen te bespreken.

Hoewel er geen overduidelijke beroep op emotie in de zin zelf is, kunnen de fouten zoals Ad Hominem en Appeal to Complexity soms subtiel beroep doen op emoties zoals minachting of frustratie met te eenvoudige argumenten. Echter, deze zijn niet directe beroepen op emotie op dezelfde manier als een uitspraak zoals “Je moet het eens zijn omdat je je anders slecht zult voelen.”

Dus, terwijl er inderdaad logische fouten aanwezig zijn in deze zin, zijn ze niet expliciet emotionele aanslagen.

Gemma 2 - 9b

Gemma 2 logo

Model: gemma2:9b-instruct-q8_0

Reactie:

De zin “Kijk, op eerste gezicht klinkt het allemaal perfect redelijk: te veel mensen, te weinig huizen. Maar het is nooit zo eenvoudig, als een voormalig minister van Binnenlandse Zaken zou moeten weten” bevat een paar logische fouten:

  • Appeal to Authority: De zin vertrouwt op de vermeende autoriteit van een “voormalig minister van Binnenlandse Zaken” om het oorspronkelijke argument te verwerpen. De spreker neemt aan dat omdat de persoon een functie van macht had, hun mening automatisch meer gewicht heeft. Deze fout negeert de mogelijkheid dat de minister onjuist zou kunnen zijn of dat hun expertise niet van toepassing is op deze specifieke situatie.

  • Pooh-Pooh: De zin “het is nooit zo eenvoudig” verwerpt het oorspronkelijke argument zonder enige reële tegenargumenten of bewijzen. Het is een afwijzend statement dat de gesprek probeert te sluiten in plaats van de ideeën die zijn voorgesteld te bespreken.

Laat me weten als u andere voorbeelden van logische fouten wilt verkennen!


De zin “Kijk, op eerste gezicht klinkt het allemaal perfect redelijk: te veel mensen, te weinig huizen. Maar het is nooit zo eenvoudig, als een voormalig minister van Binnenlandse Zaken zou moeten weten” bevat een paar logische fouten:

  • Appeal to Authority: De zin suggereert impliciet dat omdat de spreker een “voormalig minister van Binnenlandse Zaken” noemt, hun mening meer gewicht heeft. Dit neemt aan dat het zijn een voormalige minister automatisch expertise op deze specifieke kwestie verleent.

  • Pooh-Pooh: De zin “het is nooit zo eenvoudig” kan worden gezien als een vorm van pooh-poohing van het oorspronkelijke argument. Het verwerpt de directe redenering zonder substantiële tegenargumenten of het complexe te verkennen.

Laat me weten als u andere zinnen of argumenten wilt analyseren op fouten!

Gemma 2 - 27b

Model: gemma2:27b-instruct-q3_K_L

Reactie:

De zin “Maar het is nooit zo eenvoudig, als een voormalig minister van Binnenlandse Zaken zou moeten weten” gebruikt de appeal to authority-fout.

Hier is waarom:

  • Het neemt expertise aan: De uitspraak suggereert dat omdat de persoon een voormalig minister van Binnenlandse Zaken is, hij automatisch specifieke kennis heeft over complexe sociale kwesties zoals woningtekorten.
  • Expertise is niet altijd relevant: Hoewel een voormalig minister misschien wel enige inzicht heeft in woningbeleid, betekent hun ervaring niet dat ze automatisch een expert zijn op alle bijdragen aan een woningtekort.

De zin probeert een potentieel geldig argument (“te veel mensen, te weinig huizen”) eenvoudigweg te verwerpen omdat het komt van iemand die als niet-expert in het veld wordt gezien.

Laat me weten als u andere zinnen hebt die u wilt analyseren!


De zin bevat een paar elementen die lijken op logische fouten, hoewel het niet een duidelijke zaak is:

  • Appeal to Authority (zwak): “als een voormalig minister van Binnenlandse Zaken zou moeten weten.” Dit probeert gewicht te geven aan het argument door het vorige gezag van de spreker te noemen. Echter, het is zwak omdat het geen specifieke expertise of redenering van de minister geeft om hun standpunt te onderbouwen.

  • Ad Hominem (potentieel): Afhankelijk van context en toon, kan de zin als een ad hominem aanval worden gezien als het bedoeld is om het tegenargument te ontkrachten op basis van wie het maakt in plaats van het actuele inhoud van het argument aan te pakken. Bijvoorbeeld, als de uitspraak aangeeft dat de persoon niet in staat is om woningbeleid te begrijpen omdat hij een minister was, dan zou dat een ad hominem zijn.

Belangrijke opmerking: Zonder verdere context over wat de persoon daadwerkelijk heeft gedaan en de algemene toon, is het moeilijk om deze duidelijk als sterke voorbeelden van fouten te classificeren.

Laat me weten als u andere zinnen hebt die u wilt analyseren!

Qwen 2 - 7b

Qwen 2 logo

Model: qwen2:7b-instruct-q8_0

Reactie:

De zin die u hebt gegeven bevat verschillende logische fouten:

  1. Appeal to Emotions (Argumentum ad Passiones): De uitspraak “Kijk, op eerste gezicht klinkt het allemaal perfect redelijk” probeert een gevoel van redelijkheid en eenvoud in het hoofd van de luisteraar te wekken zonder substantiële bewijzen of argumentatie te geven.
  2. Red Herring Fallacy: Door te vermelden dat “een voormalig minister van Binnenlandse Zaken zou moeten weten,” leidt de spreker een onrelevant punt (de kennis van een specifieke persoon) in om de aandacht van het hoofdprobleem af te leiden, wat mogelijk de luisteraars in de war brengt door hen te laten denken dat de persoon’s expertise relevant is, terwijl dat niet hoeft te zijn.
  3. Appeal to Authority Fallacy: Hoewel het niet expliciet in deze zin wordt genoemd, als iemand zou beweren dat “een voormalig minister van Binnenlandse Zaken” iets weet omdat hij een voormalige minister is, dan zou dat een appel naar autoriteit-fout zijn, waarbij wordt aangenomen dat hun positie hen expertise verleent op het onderwerp zonder bewijs voor hun specifieke kennis of argument.

Deze logische fouten kunnen de kracht van een argument ondermijnen door beroep te doen op emoties in plaats van logica en relevantie.


De zin die u hebt gegeven:

“Kijk, op eerste gezicht klinkt het allemaal perfect redelijk: te veel mensen, te weinig huizen. Maar het is nooit zo eenvoudig, als een voormalig minister van Binnenlandse Zaken zou moeten weten.”

bevat geen van de Appeal to Emotions (Appealum ad passiones) fouten die in uw lijst zijn vermeld. Echter, er kunnen enkele potentiële logische fouten zijn:

  • Ad Hominem als deze aanhaling wordt gebruikt als een aanval op een specifieke persoon (‘voormalig minister van Binnenlandse Zaken’) in plaats van het argument van deze persoon aan te pakken.
  • Red Herring Fallacy: Er kan een poging zijn om de aandacht van het oorspronkelijke probleem of argumenten af te leiden door ongerelateerde onderwerpen te noemen, hoewel er geen duidelijke red herring in de zin die u hebt gegeven is.

Er zijn ook andere fouten die niet onder ‘Appeal To Emotions’ vallen zoals:

  • False Dilemma: Een complexe kwestie in eenvoudige termen presenteren waarin het niet adequaat kan worden besproken. De zin die u hebt gegeven doet dit niet.
  • Appeal to Authority: Het gebruik van de mening of identiteit van iemand beroemd in plaats van geldige bewijzen om een argument te onderbouwen. Niet van toepassing in uw citaat omdat geen autoriteit wordt aangehaald.

Laat het ons weten als er een andere specifieke zin was die u bedoelde voor analyse onder appeal to emotions, en we zouden graag helpen met dat.