BullshitBench v2がリリースされました!モデルが一般的に改善されていない数少ないベンチマークの一つで(Claudeを除く)、推論が役に立たない場所です。 新要素:ドメイン別(コーディング(40問)、医療(15問)、法学(15問)、ファイナンス(15問)、物理学(15問))、70+モデルバリアントで100問の新問が試されました。BullshitBenchはすでにGitHubで380人目のスタートを記録しています。すべての質問、スクリプト、回答、評価が揃っているので、ぜひチェックしてください。 要約:要約: - 結果の再現 - 最新モデル@AnthropicAI非常に高いスコアを得ています - @Alibaba_Qwenもまた非常に強いパフォーマーです - OpenAIとGoogleのモデルはあまり良くなく、改善も見られません - ドメイン間で大きな差は見られず、BS検出率はすべてのドメインでほぼ同じです - 論理はむしろ悪影響を及ぼす - 新しいモデルは古いモデル(アンソロピックを除く)と比べてあまり良い成績を出しません リンク: - データエクスプローラー: - GitHub: データや質問、サンプル回答を研究できるデータエクスプローラーを強くおすすめします。