BullshitBench v2 est sorti ! C'est l'un des rares benchmarks où les modèles ne s'améliorent généralement pas (sauf Claude) et où le raisonnement n'aide pas. Quoi de neuf : 100 nouvelles questions, par domaine (programmation (40 Q), médical (15), juridique (15), finance (15), physique (15)), plus de 70 variantes de modèles testées. BullshitBench a déjà atteint 380 démarrages sur GitHub - toutes les questions, scripts, réponses et jugements y sont, alors jetez-y un œil. TL;DR : - Résultats répliqués - les derniers modèles de @AnthropicAI obtiennent des scores exceptionnellement bons - @Alibaba_Qwen est un autre très bon performer - Les modèles d'OpenAI et de Google ne s'en sortent pas bien et ne s'améliorent pas - Les domaines ne montrent pas beaucoup de différence - les taux de détection de BS sont à peu près les mêmes dans tous les domaines - Le raisonnement, si tant est qu'il ait un effet, a un effet négatif - Les modèles plus récents ne font pas beaucoup mieux que les anciens (sauf Anthropic) Liens : - Explorateur de données : - GitHub : Je recommande vivement l'explorateur de données où vous pouvez étudier les données et les questions & exemples de réponses.