BullshitBench v2 已經推出!這是少數幾個模型普遍沒有進步的基準測試之一(除了 Claude),而推理並沒有幫助。 新內容:100 個新問題,按領域劃分(編程(40 題)、醫療(15 題)、法律(15 題)、金融(15 題)、物理(15 題)),測試了 70 多個模型變體。BullshitBench 在 GitHub 上已經有 380 次啟動 - 所有問題、腳本、回應和評判都在那裡,快去看看。 簡而言之: - 結果已重複 - @AnthropicAI 最新模型的得分非常出色 - @Alibaba_Qwen 是另一個表現非常強勁的模型 - OpenAI 和 Google 的模型表現不佳,且沒有改善 - 各領域之間的差異不大 - BS 檢測的比率在所有領域大致相同 - 推理如果有影響,則是負面的 - 新模型的表現並沒有比舊模型好太多(除了 Anthropic) 鏈接: - 數據探索器: - GitHub: 強烈推薦數據探索器,您可以在那裡研究數據、問題和示例答案。