BullshitBench v2 foi lançado! É um dos poucos benchmarks em que os modelos geralmente não estão melhorando (exceto o Claude) e onde o raciocínio não ajuda. Novidades: 100 novas perguntas, por domínio (codificação (40 Q's), médica (15), jurídica (15), finanças (15), física (15)), 70+ variantes de modelo testadas. O BullshitBench já está com 380 inícios no GitHub – todas as perguntas, scripts, respostas e julgamentos estão lá, então confira. Resumo; DR: - Resultados replicados - @AnthropicAI modelos mais recentes estão obtendo pontuações excepcionalmente boas - @Alibaba_Qwen é outro performer muito forte - Modelos OpenAI e Google não estão indo bem e não estão melhorando - Domínios não apresentam muita diferença - as taxas de detecção de BS são aproximadamente as mesmas em todos os domínios - O raciocínio, se é que tem algum efeito negativo - Modelos mais novos não fazem muito melhor do que os antigos (exceto o Anthropic) Links: - Explorador de dados: - GitHub: Recomendo muito o explorador de dados, onde você pode estudar os dados, as perguntas e responder de exemplo.