BullshitBench v2 is uit! Het is een van de weinige benchmarks waar modellen over het algemeen niet beter worden (behalve Claude) en waar redeneren niet helpt. Wat is nieuw: 100 nieuwe vragen, per domein (coderen (40 Vragen), medisch (15), juridisch (15), financiën (15), natuurkunde (15)), 70+ modelvarianten getest. BullshitBench heeft al 380 starts op GitHub - alle vragen, scripts, antwoorden en oordelen zijn daar, dus kijk er eens naar. TL;DR: - Resultaten gerepliceerd - @AnthropicAI nieuwste modellen scoren uitzonderlijk goed - @Alibaba_Qwen is een andere zeer sterke performer - OpenAI en Google-modellen presteren niet goed en verbeteren niet - Domeinen tonen niet veel verschil - de percentages van BS-detectie zijn ongeveer hetzelfde in alle domeinen - Redeneren heeft, als het al iets is, een negatief effect - Nieuwere modellen doen niet veel beter dan oudere (behalve Anthropic) Links: - Data-explorer: - GitHub: Zeer aan te raden is de data-explorer waar je de data en de vragen & voorbeeldantwoorden kunt bestuderen.