熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BullshitBench v2 已經推出!這是少數幾個模型普遍沒有進步的基準測試之一(除了 Claude),而推理並沒有幫助。
新內容:100 個新問題,按領域劃分(編程(40 題)、醫療(15 題)、法律(15 題)、金融(15 題)、物理(15 題)),測試了 70 多個模型變體。BullshitBench 在 GitHub 上已經有 380 次啟動 - 所有問題、腳本、回應和評判都在那裡,快去看看。
簡而言之:
- 結果已重複 - @AnthropicAI 最新模型的得分非常出色
- @Alibaba_Qwen 是另一個表現非常強勁的模型
- OpenAI 和 Google 的模型表現不佳,且沒有改善
- 各領域之間的差異不大 - BS 檢測的比率在所有領域大致相同
- 推理如果有影響,則是負面的
- 新模型的表現並沒有比舊模型好太多(除了 Anthropic)
鏈接:
- 數據探索器:
- GitHub:
強烈推薦數據探索器,您可以在那裡研究數據、問題和示例答案。
熱門
排行
收藏
