MathArenaにClaude-Opus-4.6を追加しました!これは強力なモデルで、ほとんどのベンチマークでGemini-3.1-Proに次ぐ2位です。例外として、視覚数学のスコアはかなり低いです。 また、費用もかかります。モデルの追加に約8,000ドルを費やし、これまで評価したどのモデルの10倍の費用でした。