Adicionámos o Claude-Opus-4.6 ao MathArena! É um modelo forte, apenas atrás do Gemini-3.1-Pro na maioria dos benchmarks. Uma exceção: ele tem um desempenho bastante fraco em matemática visual. Além disso, é caro: gastámos cerca de 8.000 USD para adicionar o modelo, 10 vezes mais do que qualquer outro modelo que já avaliámos.