BullshitBench v2 er ute! Det er en av de få benchmarkene hvor modellene generelt ikke blir bedre (bortsett fra Claude) og hvor resonnement ikke hjelper. Hva er nytt: 100 nye spørsmål, per domene (koding (40 spørsmål), medisinsk (15), juridisk (15), finans (15), fysikk (15)), 70+ modellvarianter testet. BullshitBench er allerede på 380 starter på GitHub – alle spørsmål, skript, svar og vurderinger er der, så sjekk det ut. TL; DR: - Resultater replikert - @AnthropicAI nyeste modellene scorer eksepsjonelt godt - @Alibaba_Qwen er en annen svært sterk utøver - OpenAI- og Google-modellene gjør det dårlig og blir ikke bedre - Domener viser ikke stor forskjell – frekvensen for BS-deteksjon er omtrent den samme på tvers av alle domener - Resonnement, om noe, har negativ effekt - Nyere modeller gjør det ikke så mye bedre enn eldre (bortsett fra Anthropic) Lenker: - Datautforsker: - GitHub: Anbefaler på det sterkeste datautforskeren hvor du kan studere dataene og spørsmålene og eksempelsvarene.