Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 çıktı! Bu, modellerin genellikle daha iyi olmadığı (Claude hariç) ve mantık yürütmesinin yardımcı olmadığı nadir kıstalardan biri.
Yenilikler: 100 yeni soru, alanlara göre (kodlama (40 soru), tıbbi (15), hukuk (15), finans (15), fizik (15)), 70+ model varyantı test edildi. BullshitBench zaten GitHub'da 380 başlangıçta - tüm sorular, scriptler, yanıtlar ve yargılar orada, o yüzden bir göz atın.
Özet; DR:
- Sonuçlar tekrarlandı - @AnthropicAI en yeni modeller olağanüstü iyi puan alıyor
- @Alibaba_Qwen bir başka çok güçlü performans sergileyen
- OpenAI ve Google modelleri iyi gitmiyor ve gelişme göstermiyor
- Alan oranları çok fark göstermez - BS algılama oranları tüm alanlarda yaklaşık olarak aynıdır
- Akıl yürütme, eğer bir şey varsa, olumsuz etkisi vardır
- Yeni modeller eskilerden çok daha iyi performans göstermiyor (Anthropic hariç)
Bağlantılar:
- Veri tarayıcı:
- GitHub:
Veri gezgincisini, soruları ve örnek cevapları inceleyebileceğiniz veri gezgini şiddetle tavsiye ederim.
En İyiler
Sıralama
Takip Listesi
