这个BullshitBench的结果在很大程度上解释了人们普遍认为Claude是最佳日常使用工具的直觉,尽管谷歌和OAI的基准测试令人瞩目。 将BullshitBench与问题解决基准进行对比。后者都假设有正确的解决方案。 但在现实生活中,问题往往定义不清,什么问题值得提问甚至是否有答案也常常不明确。你需要一个能够引导你走出错误道路的模型——也就是说,识别虚假信息。