100万ドルのAIベンチマーク 「正しいのか?」と尋ねる代わりに これは「誰かが費用を払うのか?」という問いです。 100万ドルの本物の専門的なタスクの中で、トップモデルは約40〜48%しか達成していません。 ベストはクロード作品4.6。 大きなギャップは知識ではなく、実行力です。 モデルはステップや制約、細部を見落とします。 AIは強力です。ただ、まだエンドツーエンドの信頼性は低いです。 この数字が増える📈のを見るのが楽しみです
研究へのリンク:
168