Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 on ulkona! Se on yksi harvoista vertailukohdista, joissa mallit eivät yleensä parane (paitsi Claude) ja joissa päättely ei auta.
Mitä uutta: 100 uutta kysymystä, alakohtaisesti (koodaus (40 kysymystä), lääketiede (15), laki (15), rahoitus (15), fysiikka (15)), 70+ mallivarianttia testattu. BullshitBench on jo 380 aloitustasolla GitHubissa – kaikki kysymykset, skriptit, vastaukset ja tuomiot ovat siellä, joten tutustu siihen.
TL; DR:
- Tulokset toistettu - @AnthropicAI uusimmat mallit saavat poikkeuksellisen hyvät pisteet
- @Alibaba_Qwen on toinen erittäin vahva esiintyjä
- OpenAI- ja Google-mallit eivät menesty hyvin eivätkä parane
- Domaineissa ei ole suuria eroja – BS:n havaitsemisnopeudet ovat suunnilleen samat kaikilla alueilla
- Päättelyllä, jos jotain, on negatiivinen vaikutus
- Uudemmat mallit eivät pärjää paljon paremmin kuin vanhemmat (paitsi Anthropic)
Linkit:
- Data explorer:
- GitHub:
Suosittelen lämpimästi Data Exploreria, jossa voit tutkia dataa sekä kysymyksiä ja esimerkkivastauksia.
Johtavat
Rankkaus
Suosikit
