DApp Store | Web3 Hub for hendelser og spill

Populære emner

BullshitBench v2 er ute! Det er en av de få benchmarkene hvor modellene generelt ikke blir bedre (bortsett fra Claude) og hvor resonnement ikke hjelper. Hva er nytt: 100 nye spørsmål, per domene (koding (40 spørsmål), medisinsk (15), juridisk (15), finans (15), fysikk (15)), 70+ modellvarianter testet. BullshitBench er allerede på 380 starter på GitHub – alle spørsmål, skript, svar og vurderinger er der, så sjekk det ut. TL; DR: - Resultater replikert - @AnthropicAI nyeste modellene scorer eksepsjonelt godt - @Alibaba_Qwen er en annen svært sterk utøver - OpenAI- og Google-modellene gjør det dårlig og blir ikke bedre - Domener viser ikke stor forskjell – frekvensen for BS-deteksjon er omtrent den samme på tvers av alle domener - Resonnement, om noe, har negativ effekt - Nyere modeller gjør det ikke så mye bedre enn eldre (bortsett fra Anthropic) Lenker: - Datautforsker: - GitHub: Anbefaler på det sterkeste datautforskeren hvor du kan studere dataene og spørsmålene og eksempelsvarene.

Topp

Rangering

Favoritter