Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 a ieșit! Este unul dintre puținele benchmark-uri în care modelele, în general, nu se îmbunătățesc (cu excepția lui Claude) și unde raționamentul nu ajută.
Ce e nou: 100 de întrebări noi, pe domenii (codare (40 de întrebări), medical (15), juridic (15), finanțe (15), fizică (15)), 70+ variante de model testate. BullshitBench are deja 380 de starturi pe GitHub – toate întrebările, scripturile, răspunsurile și judecățile sunt acolo, așa că aruncă o privire.
Pe scurt; DR:
- Rezultate replicate - @AnthropicAI cele mai noi modele obțin scoruri excepțional de bune
- @Alibaba_Qwen este un alt performer foarte puternic
- Modelele OpenAI și Google nu merg bine și nu se îmbunătățesc
- Domeniile nu prezintă o diferență semnificativă - ratele de detectare BS sunt aproximativ aceleași în toate domeniile
- Raționamentul, dacă e ceva, are efect negativ
- Modelele mai noi nu se descurcă mult mai bine decât cele mai vechi (cu excepția Anthropic)
Linkuri:
- Explorator de date:
- GitHub:
Recomand cu tărie exploratorul de date, unde poți studia datele, întrebările și răspunsurile exemplu.
Limită superioară
Clasament
Favorite
