BullshitBench v2 on ulkona! Se on yksi harvoista vertailukohdista, joissa mallit eivät yleensä parane (paitsi Claude) ja joissa päättely ei auta. Mitä uutta: 100 uutta kysymystä, alakohtaisesti (koodaus (40 kysymystä), lääketiede (15), laki (15), rahoitus (15), fysiikka (15)), 70+ mallivarianttia testattu. BullshitBench on jo 380 aloitustasolla GitHubissa – kaikki kysymykset, skriptit, vastaukset ja tuomiot ovat siellä, joten tutustu siihen. TL; DR: - Tulokset toistettu - @AnthropicAI uusimmat mallit saavat poikkeuksellisen hyvät pisteet - @Alibaba_Qwen on toinen erittäin vahva esiintyjä - OpenAI- ja Google-mallit eivät menesty hyvin eivätkä parane - Domaineissa ei ole suuria eroja – BS:n havaitsemisnopeudet ovat suunnilleen samat kaikilla alueilla - Päättelyllä, jos jotain, on negatiivinen vaikutus - Uudemmat mallit eivät pärjää paljon paremmin kuin vanhemmat (paitsi Anthropic) Linkit: - Data explorer: - GitHub: Suosittelen lämpimästi Data Exploreria, jossa voit tutkia dataa sekä kysymyksiä ja esimerkkivastauksia.