Ми додали Claude-Opus-4.6 до MathArena! Це потужна модель, поступається лише Gemini-3.1-Pro у більшості бенчмарків. Один виняток: він має досить низькі оцінки з візуальної математики. Також це дорого: ми витратили близько 8 000 доларів США на додавання моделі — у 10 разів будь-яку іншу модель, яку ми коли-небудь оцінювали.