Gemma2 vs Qwen2 vs Mistral Nemo vs...
Testowanie wykrywania błędnego rozumowania
Niedawno widzieliśmy kilka nowych LLM, które zostały wydane. Wspaniałe czasy. Zróbmy test i zobaczmy, jak działają, gdy wykrywają błędy logiczne.
Aby dowiedzieć się więcej na temat wydajności LLM – przepustowość vs opóźnienie, limity VRAM, a także testy na różnych środowiskach i sprzęcie – zobacz Wydajność LLM: Testy, Bottlenecks & Optymalizacja.

Co i jak robimy
W poprzednim teście już przetestowaliśmy, jak LLM wykrywają błędy logiczne - llama3 vs phi3 vs inne. Robią to całkiem dobrze, uwielbiliśmy wyniki llama3-8b-Q8 i phi3-medium-4k-instruct-q6_K.
W tym teście robimy to samo, używając Gemma2, Qwen2 i Mistral Nemo.
Testujemy najlepsze modele, ale muszą one spełniać nasze ograniczenia – muszą pasować do naszej karty graficznej do użytku domowego, która ma 16 GB VRAM. Z tą wiedzą w myślach wybraliśmy następujące kwantyzacje:
- gemma2:9b-instruct-q8_0
- gemma2:27b-instruct-q3_K_L
- mistral-nemo:12b-instruct-2407-q8_0
- qwen2:7b-instruct-q8_0
i tę wersję qwen2:
- qwen2:72b-instruct-q2_K
Ma ona rozmiar 29 GB, ale testujmy ją mimo wszystko.
Proszę zauważyć, że tutaj nie cofamy się do domyślnej kwantyzacji q4. Jeśli q8 pasuje do naszej karty graficznej o 16 GB VRAM – idziemy w tę stronę, staramy się najlepiej w naszych okolicznościach.
DT;DR: Wynik
Poprzednie modele, które przetestowaliśmy w Wykrywanie błędów logicznych za pomocą LLM. Proszę zobaczyć w tym poście, co testowaliśmy i teraz.
Oto zaktualizowana tabela, w której nasze nowe modele są w pogrubieniu.
| ModelVersion | GPU RAM | A2CS | Straw man | Ad homi-nem | Red Herring | Appeal to igno-rance | Appeal to autho-rity | False dicho-tomy | Hasty Gene-rali-zation | Begging the Ques-tion | Slippery Slope | Post hoc ergo propter hoc | Tu quo-que | Other |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| l3:8b-i-q4_0 | 5.8GB | V V | V V | V | V | |||||||||
| l3:8b-i-q8_0 | 9.1GB | V | V | V V | V V | |||||||||
| l3:8b-i-fp16 | 9.1GB | V | V V | V V | ||||||||||
| p3:3.8b | 4.3GB | V V | V | V V | V | |||||||||
| p3:3.8b-mini-4k-i-q8_0 | 5.8GB | V V | V V | V V | V | V V | ||||||||
| p3:3.8b-mini-i-4k-fp16 | 8.9GB | V | V | V V | V | V | ||||||||
| p3:14b | 9.3GB | V V | V V | |||||||||||
| p3:14b-m-4k-i-q6_K | 12.5GB | V V | V V | V | V | |||||||||
| p3:14b-m-4k-i-q8_0 | 15.3GB | V V | V | V V | ||||||||||
| mi:7b-i-v0.3-q4_0 | 4.3GB | V V | V | V V | V V | V V | ||||||||
| mi:7b-i-v0.3-q8_0 | 8.6GB | V V | V V | V V | ||||||||||
| mi:7b-i-v0.3-fp16 | 14.7GB | V V | V | |||||||||||
| ge:7b-i-v1.1-q4_0 | 7.2GB | V V | V V | |||||||||||
| ge:7b-i-v1.1-q6_K | 9.1GB | V V | V | V V | ||||||||||
| ge:7b-i-v1.1-fp16 | 15.5GB | V V | V V | V | ||||||||||
| qw:14b-chat-v1.5-q8_0 | 15.2GB | V V | V | V V | ||||||||||
| qw:7b-chat-v1.5-fp16 | 15.5GB | V V | V V | |||||||||||
| qw:32b-chat-v1.5-q3_K_S | 15.1GB | V | V | V | V | |||||||||
| qw:32b-chat-v1.5-q3_K_M | 15.4GB | V V | V V | V V | V V | |||||||||
| ge2:9b-i-q8_0 | 9.0GB | V V | V V | |||||||||||
| ge2:27b-i-q3_K_L | 14.0GB | V | V V | |||||||||||
| mi-nemo:12b-i-.q8_0 | 13.0GB | V | V | V | V | |||||||||
| qw2:7b-i-q8_0 | 8.1GB | V | V V | V V | V | |||||||||
| qw2:72b-i-q2_K | 29.0GB | V V | V |
Skróty w nazwach błędów logicznych: A 2 CS = Apel do rozsądku
Skróty w nazwach modeli:
- l3 = llama3
- p3 = phi3
- i = instruct
- m = medium
- mi = mistral
- ge = gemma
- qw = qwen
- ge2 = gemma2
- qw2 = qwen2
Zbyt uproszczone = fałszywa dychotomia
Wnioski
Oczekujemy, że LLM znajdą w tekście próbki błąd logiczny Strawman, Ad Hominem, Apel do władzy i Zbyt uproszczone.
Większość nowych modeli może dostrzec w naszym tekście próbce Apel do władzy, a niektóre widzą Ad Hominem, niektóre Zbyt uproszczone. Dobry wynik pokazali qwen2:7b-instruct-q8_0 i gemma2:9b-instruct-q8_0.
Ale mimo to, zwycięzcy pozostają tymi samymi.
Model wybrany przez redakcję to phi3:14b-medium-4k-instruct-q6_K. On łatwo mieści się w 16 GB pamięci RAM, a także dość inteligentny. Drugie miejsce zajmuje phi3:3.8b-mini-4k-instruct-q8_0. Grupa modeli llama3 również jest dobra.
Mistral Nemo
Zaczniemy od przeglądania wyników Mistral Nemo, mimo że nie są najlepsze, ponieważ mają ładnego robota na swoim obrazie.

Model: mistral-nemo:12b-instruct-2407-q8_0
Odpowiedź:
Zdanie, które podałeś, zawiera dwa główne błędy logiczne:
-
Apel do władzy (Argumentum ad Verecundiam): Mówca odwołuje się do władzy byłego ministra spraw wewnętrznych bez podawania żadnych konkretnych argumentów ani dowodów z tej osoby. Prosto zakłada, że dlatego, że ta osoba zajmowała pewną pozycję, jej opinia powinna być akceptowana jako ważna.
- Błąd: “jakby byłym ministrem spraw wewnętrznych powinien wiedzieć.”
-
Zwrot do innej sprawy (Irrelevant Conclusion): Mówca zaczyna od prezentowania wydaje się rozsądnego argumentu (“zbyt dużo ludzi, za mało domów”), a potem odrzuca go bez podawania żadnych argumentów ani dowodów. Zamiast tego odwołuje się do władzy byłego ministra.
- Błąd: “Spójrz, na pierwszy rzut oka, wszystko brzmi perfekcyjnie rozsądnie: zbyt dużo ludzi, za mało domów. Ale nigdy nie jest to tak proste…”
Choć zdanie nie zawiera wyraźnie języka emocjonalnego, błędy apelu do władzy i zwrot do innej sprawy mogą być również uznane za formy apelu do emocji w szerszym sensie, ponieważ próbują przekonać słuchacza na podstawie czynników innych niż racjonalne argumenty.
Na podstawie zdania, które podałeś, są kilka błędów logicznych:
-
Ad Hominem: Jest to atak skierowany do osoby, która przedstawia argument, a nie sam argument. W tym przypadku sugeruje się, że dlatego, że mówca ma doświadczenie jako byłym ministrem spraw wewnętrznych, powinien wiedzieć, że rzeczy nie są proste. Zdanie sugeruje, że jego brak zrozumienia (lub może niezrozumienie) wynika z jego wcześniejszej roli, a nie odnosząc się do istoty argumentu.
-
Apel do skomplikowania: Ten błąd występuje, gdy ktoś używa skomplikowania jako wymówki, by nie myśleć głęboko nad problemem lub by odrzucić dowody lub rozumowanie, które są sprzeczne z własną pozycją. W tym kontekście, “nigdy nie jest to tak proste” można by uznąć za sposób odrzucenia początkowego argumentu bez rzeczywistego rozpatrywania jego wartości.
Choć nie ma wyraźnego apelu do emocji w samym zdaniu, użycie błędów takich jak Ad Hominem i Apel do skomplikowania może czasem subtelnie odwoływać się do emocji, takich jak pogardza lub frustracja wobec zbyt uproszczonych argumentów. Jednak nie są to bezpośrednie apeli do emocji w ten sam sposób, jakby stwierdzenie “Zgadzaj się, ponieważ poczujesz się źle, jeśli nie zgadniesz” było to.
Więc, mimo że rzeczywiście są błędy logiczne w tym zdaniu, nie są one wyraźnymi apelami emocjonalnymi.
Gemma 2 - 9b

Model: gemma2:9b-instruct-q8_0
Odpowiedź:
Zdanie “Spójrz, na pierwszy rzut oka, wszystko brzmi perfekcyjnie rozsądnie: zbyt dużo ludzi, za mało domów. Ale nigdy nie jest to tak proste, jakby byłym ministrem spraw wewnętrznych powinien wiedzieć” zawiera kilka błędów logicznych:
-
Apel do władzy: Zdanie opiera się na wyobrażonej wadze “byłego ministra spraw wewnętrznych”, by odrzucić początkowy argument. Mówca zakłada, że dlatego, że osoba zajmowała pozycję władzy, jej opinia automatycznie ma większy wpływ. Ten błąd ignoruje możliwość, że minister mógłby być błędny lub że jego ekspertyza nie dotyczy tej konkretnej sytuacji.
-
Pooh-Pooh: Zdanie “nigdy nie jest to tak proste” odrzuca początkowy argument bez podawania żadnych rzeczywistych argumentów ani dowodów. To odrzucające stwierdzenie ma na celu zamknięcie rozmowy, a nie zaangażowanie się w przedstawione idee.
Daj znać, jeśli chcesz, abyśmy omówili inne przykłady błędów logicznych!
Zdanie “Spójrz, na pierwszy rzut oka, wszystko brzmi perfekcyjnie rozsądnie: zbyt dużo ludzi, za mało domów. Ale nigdy nie jest to tak proste, jakby byłym ministrem spraw wewnętrznych powinien wiedzieć” zawiera kilka błędów logicznych:
-
Apel do władzy: Zdanie niejawnie sugeruje, że dlatego, że mówca wspomina “byłego ministra spraw wewnętrznych”, jego opinia ma większy wpływ. Zakłada, że bycie byłym ministrem automatycznie daje ekspertyzę w tej konkretnej sprawie.
-
Pooh-Pooh: Zdanie “nigdy nie jest to tak proste” może być rozważane jako forma pooh-poohowania początkowego argumentu. Odrzuca prostą weryfikację bez podawania znaczących argumentów ani rozpatrywania skomplikowania.
Daj znać, jeśli chcesz, abyśmy przeanalizowali inne zdania lub argumenty pod kątem błędów!
Gemma 2 - 27b
Model: gemma2:27b-instruct-q3_K_L
Odpowiedź:
Zdanie “Ale nigdy nie jest to tak proste, jakby byłym ministrem spraw wewnętrznych powinien wiedzieć” wykorzystuje apel do władzy.
Oto dlaczego:
- Zakłada ekspertyzę: Stwierdzenie sugeruje, że ponieważ osoba była byłym ministrem spraw wewnętrznych, automatycznie ma specjalną wiedzę na temat skomplikowanych problemów społecznych, takich jak brak domów.
- Ekspertyza nie zawsze jest odpowiednia: Choć były minister może mieć pewne wgląd w politykę mieszkaniową, jego doświadczenie niekoniecznie czyni go ekspertem na wszystkie czynniki wpływające na brak domów.
Zdanie próbuje odrzucić potencjalnie ważny argument (“zbyt dużo ludzi, za mało domów”) po prostu dlatego, że pochodzi od osoby, która jest postrzegana jako nie mająca ekspertyzy w tej dziedzinie.
Daj znać, jeśli masz inne zdania, które chciałbyś, abyśmy przeanalizowali!
Zdanie zawiera kilka elementów, które przypominają błędy logiczne, choć nie jest to wyraźny przypadek:
-
Apel do władzy (Słabo): “jakby byłym ministrem spraw wewnętrznych powinien wiedzieć.” To próbuje nadać wagi argumentowi, odwołując się do wcześniejszej władzy mówcy. Jednak jest to słabe, ponieważ nie podaje żadnej konkretnej ekspertyzy ani rozumowania z ministra, które by wspierało jego stanowisko.
-
Ad Hominem (Potencjalnie): W zależności od kontekstu i tonu, zdanie mogłoby być uznane za ad hominem, jeśli miałoby na celu osłabienie argumentu przeciwnika tylko dlatego, że jest to osoba, a nie odnosząc się do rzeczywistego treści argumentu. Na przykład, jeśli zdanie sugerowałoby, że osoba nie potrafi zrozumieć polityki mieszkaniowej dlatego, że była ministrem, to byłoby to ad hominem.
Ważne Uwagi: Bez dodatkowego kontekstu co do tego, co osoba rzeczywiście argumentowała i ogólny ton, trudno jednoznacznie sklasyfikować te błędy jako silne przykłady błędów.
Daj znać, jeśli masz inne zdania, które chciałbyś, abyśmy przeanalizowali!
Qwen 2 - 7b

Model: qwen2:7b-instruct-q8_0
Odpowiedź:
Zdanie, które podałeś, zawiera kilka błędów logicznych:
- Apel do emocji (Argumentum ad Passiones): Stwierdzenie “Spójrz, na pierwszy rzut oka, wszystko brzmi perfekcyjnie rozsądnie” próbuje wywołać w umyśle słuchacza poczucie rozsądku i prostoty bez podawania znaczących dowodów lub argumentów.
- Błąd zwrotu do innej sprawy: Przez wspomnienie, że “byłym ministrem spraw wewnętrznych powinien wiedzieć”, mówca wprowadza nieistotny punkt (wiedza konkretnej osoby) w celu odwrócenia uwagi od głównej kwestii, potencjalnie myląc słuchaczy, by myśleli, że wiedza tej osoby jest ważna, kiedy może nie być.
- Apel do władzy: Choć nie jest to wyraźnie stwierdzone w tym zdaniu, jeśli ktoś by stwierdził, że “byłym ministrem spraw wewnętrznych powinien wiedzieć”, to byłoby to wywołanie apelu do władzy, zakłada, że jego stanowisko daje mu ekspertyzę na temat tej sprawy bez podawania dowodów jego konkretnej wiedzy lub argumentu.
Te błędy logiczne mogą osłabiać siłę argumentu, odwołując się do emocji zamiast logiki i odpowiedniości.
Zdanie, które podałeś:
“Spójrz, na pierwszy rzut oka, wszystko brzmi perfekcyjnie rozsądnie: zbyt dużo ludzi, za mało domów. Ale nigdy nie jest to tak proste, jakby byłym ministrem spraw wewnętrznych powinien wiedzieć.”
nie zawiera żadnych błędów logicznych z listy, które dotyczyły apelu do emocji. Jednak kilka potencjalnych błędów logicznych może być:
- Ad Hominem, jeśli ten cytat byłby używany jako atak na konkretną osobę (“byłym ministrem spraw wewnętrznych”) zamiast odnosząc się do ich argumentu.
- Błąd zwrotu do innej sprawy: Może być próba odwrócenia uwagi od oryginalnej kwestii lub argumentów przez wspomnienie nieistotnych tematów, choć w zdaniu, które podałeś, nie ma wyraźnego błędu zwrotu do innej sprawy.
Są również inne błędy, które nie zostały wymienione w kategorii “Apel do Emocji”, takie jak:
- Fałszywa dychotomia: Przedstawienie skomplikowanej kwestii w prostych, dwuwartościowych terminach, gdzie nie można jej odpowiednio omówić. W zdaniu podanym nie ma tego rodzaju błędu.
- Apel do władzy: Użycie opinii lub tożsamości osoby znanej zamiast ważnych dowodów, by wspierać argument. Nie dotyczy to Twojego cytatu, ponieważ nie jest wywoływana żadna władza.
Proszę wyjaśnić, jeśli miałeś na myśli inne konkretne zdanie, które chciałbyś, abyśmy przeanalizowali w kontekście apelu do emocji, i z chęcią pomoglibyśmy z tym.