トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2がリリースされました!モデルが一般的に改善されていない数少ないベンチマークの一つで(Claudeを除く)、推論が役に立たない場所です。
新要素:ドメイン別(コーディング(40問)、医療(15問)、法学(15問)、ファイナンス(15問)、物理学(15問))、70+モデルバリアントで100問の新問が試されました。BullshitBenchはすでにGitHubで380人目のスタートを記録しています。すべての質問、スクリプト、回答、評価が揃っているので、ぜひチェックしてください。
要約:要約:
- 結果の再現 - 最新モデル@AnthropicAI非常に高いスコアを得ています
- @Alibaba_Qwenもまた非常に強いパフォーマーです
- OpenAIとGoogleのモデルはあまり良くなく、改善も見られません
- ドメイン間で大きな差は見られず、BS検出率はすべてのドメインでほぼ同じです
- 論理はむしろ悪影響を及ぼす
- 新しいモデルは古いモデル(アンソロピックを除く)と比べてあまり良い成績を出しません
リンク:
- データエクスプローラー:
- GitHub:
データや質問、サンプル回答を研究できるデータエクスプローラーを強くおすすめします。
トップ
ランキング
お気に入り
