一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

BullshitBench v2 已經推出！這是少數幾個模型普遍沒有進步的基準測試之一（除了 Claude），而推理並沒有幫助。新內容：100 個新問題，按領域劃分（編程（40 題）、醫療（15 題）、法律（15 題）、金融（15 題）、物理（15 題）），測試了 70 多個模型變體。BullshitBench 在 GitHub 上已經有 380 次啟動 - 所有問題、腳本、回應和評判都在那裡，快去看看。簡而言之： - 結果已重複 - @AnthropicAI 最新模型的得分非常出色 - @Alibaba_Qwen 是另一個表現非常強勁的模型 - OpenAI 和 Google 的模型表現不佳，且沒有改善 - 各領域之間的差異不大 - BS 檢測的比率在所有領域大致相同 - 推理如果有影響，則是負面的 - 新模型的表現並沒有比舊模型好太多（除了 Anthropic）鏈接： - 數據探索器： - GitHub：強烈推薦數據探索器，您可以在那裡研究數據、問題和示例答案。