這個 BullshitBench 的結果在很大程度上解釋了為什麼大家普遍認為 Claude 是最佳的日常使用工具,儘管 Google 和 OAI 的基準測試令人驚訝。 將 BullshitBench 與問題解決基準進行對比。後者都假設有正確的解決方案。 但在現實生活中,問題往往定義不清,什麼問題值得提出,甚至是否有答案,常常不明確。你需要一個能夠引導你走出錯誤道路的模型——也就是說,揭穿謊言。