我們將 Claude-Opus-4.6 添加到 MathArena!這是一個強大的模型,在大多數基準測試中僅次於 Gemini-3.1-Pro。唯一的例外是:它在視覺數學方面的表現相當差。 此外,它的成本也很高:我們花了大約 8,000 USD 來添加這個模型,是我們評估過的任何其他模型的 10 倍。