热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BullshitBench v2 发布了!这是少数几个模型普遍没有进步的基准之一(除了 Claude),而推理并没有帮助。
新内容:100 个新问题,按领域划分(编程(40 个问题)、医学(15)、法律(15)、金融(15)、物理(15)),测试了 70 多个模型变体。BullshitBench 在 GitHub 上已经有 380 次启动 - 所有问题、脚本、响应和判断都在那儿,快去看看。
简而言之:
- 结果已复制 - @AnthropicAI 最新模型的得分异常优秀
- @Alibaba_Qwen 是另一个表现非常强劲的模型
- OpenAI 和 Google 的模型表现不佳且没有改善
- 各领域之间没有太大差异 - BS 检测的比率在所有领域大致相同
- 推理如果有任何影响,反而是负面的
- 新模型的表现并没有比旧模型好太多(除了 Anthropic)
链接:
- 数据探索器:
- GitHub:
强烈推荐数据探索器,您可以在其中研究数据、问题和示例答案。
热门
排行
收藏
