一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

BullshitBench v2 发布了！这是少数几个模型普遍没有进步的基准之一（除了 Claude），而推理并没有帮助。新内容：100 个新问题，按领域划分（编程（40 个问题）、医学（15）、法律（15）、金融（15）、物理（15）），测试了 70 多个模型变体。BullshitBench 在 GitHub 上已经有 380 次启动 - 所有问题、脚本、响应和判断都在那儿，快去看看。简而言之： - 结果已复制 - @AnthropicAI 最新模型的得分异常优秀 - @Alibaba_Qwen 是另一个表现非常强劲的模型 - OpenAI 和 Google 的模型表现不佳且没有改善 - 各领域之间没有太大差异 - BS 检测的比率在所有领域大致相同 - 推理如果有任何影响，反而是负面的 - 新模型的表现并没有比旧模型好太多（除了 Anthropic）链接： - 数据探索器： - GitHub：强烈推荐数据探索器，您可以在其中研究数据、问题和示例答案。