Gemma2 x Qwen2 x Mistral Nemo x...

Teste de detecção de falácias lógicas

Conteúdo da página

Recentemente, vimos o lançamento de vários novos LLMs. Tempos emocionantes. Vamos testar e ver como eles se comportam na detecção de falácias lógicas.

Para mais informações sobre o desempenho de LLMs — throughput versus latência, limites de VRAM e benchmarks em diferentes runtimes e hardwares — veja Desempenho de LLM: Benchmarks, Gargalos & Otimização.

Apresentando mistral nemo

O que e como fazemos

Em testes anteriores, já testamos como LLM detectam falácias lógicas - llama3 vs phi3 vs outros. Eles fazem isso muito bem; amamos os resultados do llama3-8b-Q8 e do phi3-medium-4k-instruct-q6_K.

Neste teste, faremos o mesmo usando Gemma2, Qwen2 e Mistral Nemo.

Estamos testando os melhores modelos possíveis, mas eles precisam atender às nossas restrições: devem caber em nossa GPU de consumo, que possui 16 GB de VRAM. Com este critério em mente, selecionamos as seguintes quantizações:

  • gemma2:9b-instruct-q8_0
  • gemma2:27b-instruct-q3_K_L
  • mistral-nemo:12b-instruct-2407-q8_0
  • qwen2:7b-instruct-q8_0

e esta versão do qwen2:

  • qwen2:72b-instruct-q2_K

Ele tem um tamanho de 29 GB, mas vamos testar mesmo assim.

Por favor, note que aqui não estamos recorrendo à quantização ‘padrão’ q4. Se o q8 couber nos 16 GB de VRAM da nossa GPU, é isso que faremos, tentando o melhor possível nas nossas circunstâncias.

TL;DR: O resultado

Modelos anteriores que testamos em Detecção de Falácias Lógicas com LLMs. Por favor, veja naquele post o que testamos e agora.

Aqui está a tabela atualizada onde nossos novos modelos estão em negrito.

ModelVersion GPU RAM A2CS Straw man Ad homi-nem Red Herring Appeal to igno-rance Appeal to autho-rity False dicho-tomy Hasty Gene-rali-zation Begging the Ques-tion Slippery Slope Post hoc ergo propter hoc Tu quo-que Other
l3:8b-i-q4_0 5.8GB V V V V V V
l3:8b-i-q8_0 9.1GB V V V V V V
l3:8b-i-fp16 9.1GB V V V V V
p3:3.8b 4.3GB V V V V V V
p3:3.8b-mini-4k-i-q8_0 5.8GB V V V V V V V V V
p3:3.8b-mini-i-4k-fp16 8.9GB V V V V V V
p3:14b 9.3GB V V V V
p3:14b-m-4k-i-q6_K 12.5GB V V V V V V
p3:14b-m-4k-i-q8_0 15.3GB V V V V V
mi:7b-i-v0.3-q4_0 4.3GB V V V V V V V V V
mi:7b-i-v0.3-q8_0 8.6GB V V V V V V
mi:7b-i-v0.3-fp16 14.7GB V V V
ge:7b-i-v1.1-q4_0 7.2GB V V V V
ge:7b-i-v1.1-q6_K 9.1GB V V V V V
ge:7b-i-v1.1-fp16 15.5GB V V V V V
qw:14b-chat-v1.5-q8_0 15.2GB V V V V V
qw:7b-chat-v1.5-fp16 15.5GB V V V V
qw:32b-chat-v1.5-q3_K_S 15.1GB V V V V
qw:32b-chat-v1.5-q3_K_M 15.4GB V V V V V V V V
ge2:9b-i-q8_0 9.0GB V V V V
ge2:27b-i-q3_K_L 14.0GB V V V
mi-nemo:12b-i-.q8_0 13.0GB V V V V
qw2:7b-i-q8_0 8.1GB V V V V V V
qw2:72b-i-q2_K 29.0GB V V V

Atalhos nos nomes das Falácias Lógicas: A 2 CS = Apelo ao senso comum

Atalhos nos nomes dos modelos:

  • l3=llama3
  • p3=phi3
  • i=instruct
  • m=medium
  • mi=mistral
  • ge=gemma
  • qw=qwen
  • ge2=gemma2
  • qw2=qwen2

Oversimplification = Falsa dicotomia

Conclusão

Esperávamos que os LLMs encontrassem no texto de exemplo as falácias de Strawman, Ad Hominem, Apelo à autoridade e Simplificação excessiva.

A maioria dos novos modelos consegue identificar no nosso texto de exemplo o Apelo à Autoridade, e alguns veem Ad Hominem e Simplificação excessiva. Bons resultados foram mostrados pelo qwen2:7b-instruct-q8_0 e gemma2:9b-instruct-q8_0.

Mas ainda assim, os vencedores permanecem os mesmos.

O modelo “Escolha do Editor” é phi3:14b-medium-4k-instruct-q6_K. Ele cabe facilmente em 16 GB de RAM e é bastante inteligente. O segundo lugar fica com o phi3:3.8b-mini-4k-instruct-q8_0. O grupo de modelos llama3 também é bom.

Mistral Nemo

Vamos revisar primeiro os resultados do Mistral Nemo, mesmo não sendo os melhores, porque eles têm um robô bonito na imagem deles.

Mistral nemo 12b

Modelo: mistral-nemo:12b-instruct-2407-q8_0

Resposta:

A frase que você forneceu contém duas falácias lógicas principais:

  1. Apelo à Autoridade (Argumentum ad Verecundiam): O interlocutor apela à autoridade de um ex-ministro de assuntos internos sem fornecer argumentos ou evidências específicas dessa pessoa. Eles simplesmente assumem que, porque essa pessoa ocupou certo cargo, sua opinião deve ser aceita como válida.

    • Falácia: “como ex-ministro de assuntos internos deveria saber.”
  2. Red Herrin (Conclusão Irrelevante): O interlocutor começa apresentando um argumento aparentemente razoável (“muitas pessoas, casas insuficientes”), mas depois o descarta sem fornecer contra-argumentos ou evidências. Em vez disso, eles apela à autoridade do ex-ministro.

    • Falácia: “Veja, à primeira vista, tudo soa perfeitamente razoável: muitas pessoas, casas insuficientes. Mas nunca é tão simples…”

Embora a frase não use linguagem emocional explicitamente, as falácias de apelo à autoridade e red herring ainda podem ser consideradas formas de apelo à emoção em um sentido mais amplo, pois tentam persuadir o ouvinte com base em fatores outros que não a argumentação racional.


Com base na frase que você forneceu, há um par de falácias lógicas em jogo:

  1. Ad Hominem: Este é um ataque direcionado à pessoa que faz o argumento, em vez do argumento em si. Neste caso, implica-se que, porque o interlocutor tem experiência como ex-ministro de assuntos internos, ele deveria saber que as coisas não são simples. A frase sugere que sua falta de compreensão (ou talvez mal-entendido) se deve ao seu papel anterior, em vez de abordar a substância do argumento.

  2. Apelo à Complexidade: Esta falácia ocorre quando alguém usa a complexidade como desculpa para não pensar profundamente sobre uma questão ou para descartar evidências ou raciocínio que vão contra a própria posição. Neste contexto, “nunca é tão simples” pode ser visto como uma forma de descartar o argumento inicial sem realmente abordar seus méritos.

Embora não haja um apelo emocional explícito na frase em si, o uso de falácias como Ad Hominem e Apelo à Complexidade pode às vezes apelar sutilmente a emoções como desprezo ou frustração com argumentos excessivamente simplificados. No entanto, estes não são apelos diretos à emoção da mesma forma que uma declaração como “Você deveria concordar porque se sentirá mal se não o fizer” seria.

Portanto, embora existam falácias lógicas presentes nesta frase, elas não são apelos emocionais explícitos.

Gemma 2 - 9b

Logotipo Gemma 2

Modelo: gemma2:9b-instruct-q8_0

Resposta:

A frase “Veja, à primeira vista, tudo soa perfeitamente razoável: muitas pessoas, casas insuficientes. Mas nunca é tão simples, como um ex-ministro de assuntos internos deveria saber” contém algumas falácias lógicas:

  • Apelo à Autoridade: A frase depende da autoridade percebida de um “ex-ministro de assuntos internos” para descartar o argumento inicial. O interlocutor assume que, porque a pessoa ocupou uma posição de poder, sua opinião automaticamente tem mais peso. Esta falácia ignora a possibilidade de que o ministro possa estar errado ou que sua expertise não se aplica a esta situação específica.

  • Pooh-Pooh: A frase “nunca é tão simples” descarta o argumento inicial sem fornecer contra-argumentos ou evidências reais. É uma declaração desdenhosa que visa encerrar a conversa em vez de engajar-se com as ideias apresentadas.

Avise-me se você quiser explorar outros exemplos de falácias lógicas!


A frase “Veja, à primeira vista, tudo soa perfeitamente razoável: muitas pessoas, casas insuficientes. Mas nunca é tão simples, como um ex-ministro de assuntos internos deveria saber” contém algumas falácias lógicas:

  • Apelo à Autoridade: A frase sugere implicitamente que, porque o interlocutor menciona um “ex-ministro de assuntos internos”, sua opinião tem mais peso. Isso assume que ser ex-ministro concede automaticamente expertise sobre esta questão particular.

  • Pooh-Pooh: A frase “nunca é tão simples” pode ser considerada uma forma de pooh-poohing (desdenho) do argumento inicial. Descarta o raciocínio direto sem fornecer contra-argumentos substanciais ou explorar as complexidades.

Avise-me se você quiser analisar outras frases ou argumentos para falácias!

Gemma 2 - 27b

Modelo: gemma2:27b-instruct-q3_K_L

Resposta:

A frase “Mas nunca é tão simples, como um ex-ministro de assuntos internos deveria saber” emprega a falácia de apelo à autoridade.

Aqui está o porquê:

  • Assume expertise: A afirmação implica que, porque a pessoa é um ex-ministro de assuntos internos, eles automaticamente têm conhecimento especial sobre questões sociais complexas como a escassez de habitação.
  • A expertise nem sempre é relevante: Embora um ex-ministro possa ter alguma visão sobre políticas habitacionais, sua experiência não necessariamente os torna especialistas em todos os fatores contribuintes para a escassez de habitação.

A frase tenta descartar um argumento potencialmente válido (“muitas pessoas, casas insuficientes”) simplesmente porque vem de alguém que é percebido como carecendo de expertise no campo.

Avise-me se você tiver outras frases que gostaria de analisar!


A frase contém alguns elementos que se assemelham a falácias lógicas, embora não seja um caso direto:

  • Apelo à Autoridade (Fraco): “como um ex-ministro de assuntos internos deveria saber.” Isso tenta dar peso ao argumento invocando a autoridade anterior do interlocutor sobre o assunto. No entanto, é fraco porque não fornece nenhuma expertise específica ou raciocínio do ministro para apoiar sua posição.

  • Ad Hominem (Potencial): Dependendo do contexto e do tom, a frase poderia ser vista como um ataque ad hominem se for destinada a desacreditar o argumento oposto simplesmente com base em quem o está fazendo, em vez de abordar o conteúdo real do argumento. Por exemplo, se a afirmação implicar que a pessoa é incapaz de entender a política habitacional porque foi um ministro, isso seria um ad hominem.

Nota Importante: Sem contexto adicional sobre o que a pessoa realmente argumentou e o tom geral, é difícil classificar definitivamente estes como exemplos fortes de falácias.

Avise-me se você tiver outras frases que gostaria que eu analisasse!

Qwen 2 - 7b

Logotipo Qwen 2

Modelo: qwen2:7b-instruct-q8_0

Resposta:

A frase que você forneceu contém várias falácias lógicas:

  1. Apelo às Emoções (Argumentum ad Passiones): A afirmação “Veja, à primeira vista, tudo soa perfeitamente razoável” tenta evocar uma sensação de razoabilidade e simplicidade na mente do ouvinte sem fornecer evidências ou argumentação substanciais.
  2. Falácia do Red Herrin: Ao mencionar que “um ex-ministro de assuntos internos deveria saber”, o interlocutor introduz um ponto irrelevante (o conhecimento de um indivíduo específico) para desviar a atenção da questão principal, podendo induzir o público a pensar que a expertise da pessoa é relevante quando pode não ser.
  3. Falácia do Apelo à Autoridade: Embora não esteja explicitamente declarada nesta frase, se alguém afirmasse que “um ex-ministro de assuntos internos” sabe algo porque é um ex-ministro, estaria cometendo uma falácia de apelo à autoridade, assumindo que sua posição lhes concede expertise sobre o assunto sem fornecer evidências para seu conhecimento ou argumento específico.

Estas falácias lógicas podem enfraquecer a força de um argumento apelando a emoções em vez de lógica e relevância.


A frase que você forneceu:

“Veja, à primeira vista, tudo soa perfeitamente razoável: muitas pessoas, casas insuficientes. Mas nunca é tão simples, como um ex-ministro de assuntos internos deveria saber.”

não contém nenhuma das falácias de Apelo às Emoções (Apelum ad passiones) mencionadas na sua lista. No entanto, algumas falácias lógicas potenciais poderiam ser:

  • Ad Hominem se esta citação for usada como um ataque contra um indivíduo específico (’ex-ministro de assuntos internos’) em vez de abordar seu argumento.
  • Falácia do Red Herrin: Pode haver uma tentativa de desviar a atenção da questão original ou dos argumentos mencionando tópicos irrelevantes, embora nenhum red herring óbvio pareça estar presente na frase que você forneceu.

Também existem outras falácias não mencionadas sob ‘Apelo às Emoções’, tais como:

  • Falso Dilema: Apresentar uma questão complexa em termos binários simples onde ela não pode ser adequadamente discutida. A frase fornecida não implica este tipo de falácia.
  • Apelo à Autoridade: Usar a opinião ou identidade de alguém famoso em vez de evidências válidas para apoiar um argumento. Não aplicável na sua citação, pois nenhuma autoridade é invocada.

Por favor, esclareça se havia outra frase específica que você pretendia analisar sob apelo às emoções, e ficaremos felizes em ajudar com isso.

Qwen 2 - 72b

Eu sei, isso é pesado e não é da nossa categoria, mas apenas por curiosidade…

Modelo: qwen2:72b-instruct-q2_K

Resposta:

A frase fornecida não contém diretamente um apelo às emoções conforme definido na lista de falácias lógicas. No entanto, ela implica uma falácia lógica potencial conhecida como “Apelo à autoridade” ou “Argumento de autoridade”. Isso ocorre porque o interlocutor sugere que o ex-ministro de assuntos internos deveria saber melhor, implicando que sua autoridade sobre o assunto torna sua opinião mais válida.

A frase não usa diretamente um apelo emocional, mas usa a autoridade do conhecimento presumido do ex-ministro de assuntos internos como uma forma de minar a simplicidade do argumento apresentado. Isso pode ser visto na estrutura da frase: “Mas nunca é tão simples, como um ex-ministro de assuntos internos deveria saber.”

Em resumo:

  • Falácia lógica presente: Apelo à autoridade
  • Definição: Um apelo à autoridade ocorre quando uma afirmação é considerada verdadeira com base na credibilidade ou expertise da pessoa que faz a afirmação, em vez da força das evidências.
  • Exemplo na frase: “como um ex-ministro de assuntos internos deveria saber” implica que a opinião de alguém com tal experiência tem mais peso e pode ser usada para descartar explicações mais simples.

A frase que você forneceu não necessariamente evoca uma resposta emocional específica; em vez disso, apela ao conhecimento e experiência do ouvinte, sugerindo que explicações simples muitas vezes não contam a história completa. No entanto, se analisássemos quanto a apelo emocional potencial:

Apelo à Autoridade: Ela referencia indiretamente um “ex-ministro de assuntos internos” que deveria saber melhor do que aceitar explicações simplistas. Isso pode ser visto como uma tentativa indireta de emprestar autoridade e credibilidade à complexidade da questão, o que pode apelar sutilmente ao nosso desejo por orientação de especialistas.

A frase não usa diretamente apelos emocionais como Medo, Culpa, Ridículo, Raiva, Ódio, Nojo, Adulação, Piedade, Patriotismo ou Pooh-Pooh, mas referencia indiretamente autoridade (apelando ao nosso respeito e deferência) para sublinhar a complexidade de questões que não são simplesmente resolvidas culpando “muitas pessoas” pela falta de casas. Isso também pode estar relacionado a:

Apelo à Razão: Isso nos leva a olhar além de soluções simples e considerar que os problemas podem ter causas mais profundas ou complexas do que parecem à primeira vista.

No geral, embora possa não haver um apelo emocional forte evidente na frase, ela tenta alavancar a autoridade e a razão - aspectos frequentemente respeitados na tomada de decisões racionais. Isso destaca um possível jogo estratégico nas emoções de confiança em relação a figuras autoritárias para incutir dúvidas em visões simplistas e encorajar considerações mais reflexivas por parte dos ouvintes que apreciam a complexidade em questões sociais. Uma versão matizada poderia potencialmente invocar elementos relacionados a:

  • Medo: Levando sutilmente preocupações sobre a simplificação excessiva, invocando assim ansiedade em torno de complexidades não abordadas.
  • Nojo: Um desgosto implícito por narrativas excessivamente simplificadas pode ser acionado se enquadrado em contextos que criticam discussões políticas superficiais ou ignorantes.

No entanto, estes são indiretos e podem depender fortemente de nuances contextuais em discussões circundantes. Sem conteúdo emocional adicional ou apelos específicos característicos de falácias definidas (por exemplo, medo, invocação explícita de culpa), esta frase é centrada principalmente em invocar o raciocínio através da autoridade em vez de manipular sentimentos. Esta posição enfatiza a credibilidade, frequentemente apreciada ao analisar falácias lógicas que podem manipular emoções sem argumentos sólidos.

Para resumir:

  • A afirmação alude à autoridade (“um ex-ministro de assuntos internos”), potencialmente despertando respeito ou confiança (como insinua conhecimento interno).
  • Poderia induzir uma ansiedade sutil em relação ao simplismo como uma ameaça (embora táticas de medo não sejam empregadas aqui de forma explícita).
  • Um contexto mais detalhado pode ser necessário para classificações específicas de apelo emocional, já que apelos inerentes tendem a derivar de como os ouvintes se relacionam emocionalmente com questões além da própria afirmação.

Lembre-se, as falácias geralmente envolvem erros lógicos, mas muitas vezes ressoam em vieses pessoais mais profundos influenciados emocionalmente ou ansiedades sociais – tornando as implicações desta frase dignas de serem descompactadas cuidadosamente em torno do que os ouvintes poderiam conectar subconscientemente em diálogos mais amplos.

Para explorar mais benchmarks, VRAM e seleção de modelos para GPUs de 16GB, e ajuste de desempenho, verifique nosso Desempenho de LLM: Benchmarks, Gargalos & Otimização hub.

Assinar

Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.