分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

BullshitBench v2がリリースされました!モデルが一般的に改善されていない数少ないベンチマークの一つで(Claudeを除く)、推論が役に立たない場所です。新要素:ドメイン別(コーディング(40問)、医療(15問)、法学(15問)、ファイナンス(15問)、物理学(15問))、70+モデルバリアントで100問の新問が試されました。BullshitBenchはすでにGitHubで380人目のスタートを記録しています。すべての質問、スクリプト、回答、評価が揃っているので、ぜひチェックしてください。要約:要約: - 結果の再現 - 最新モデル@AnthropicAI非常に高いスコアを得ています - @Alibaba_Qwenもまた非常に強いパフォーマーです - OpenAIとGoogleのモデルはあまり良くなく、改善も見られません - ドメイン間で大きな差は見られず、BS検出率はすべてのドメインでほぼ同じです - 論理はむしろ悪影響を及ぼす - 新しいモデルは古いモデル(アンソロピックを除く)と比べてあまり良い成績を出しませんリンク: - データエクスプローラー: - GitHub: データや質問、サンプル回答を研究できるデータエクスプローラーを強くおすすめします。

トップ

ランキング

お気に入り