BullshitBench v2 发布了!这是少数几个模型普遍没有进步的基准之一(除了 Claude),而推理并没有帮助。 新内容:100 个新问题,按领域划分(编程(40 个问题)、医学(15)、法律(15)、金融(15)、物理(15)),测试了 70 多个模型变体。BullshitBench 在 GitHub 上已经有 380 次启动 - 所有问题、脚本、响应和判断都在那儿,快去看看。 简而言之: - 结果已复制 - @AnthropicAI 最新模型的得分异常优秀 - @Alibaba_Qwen 是另一个表现非常强劲的模型 - OpenAI 和 Google 的模型表现不佳且没有改善 - 各领域之间没有太大差异 - BS 检测的比率在所有领域大致相同 - 推理如果有任何影响,反而是负面的 - 新模型的表现并没有比旧模型好太多(除了 Anthropic) 链接: - 数据探索器: - GitHub: 强烈推荐数据探索器,您可以在其中研究数据、问题和示例答案。