Aristoteles jen tvrdil, že formálně potvrdil Q8 od BrokenArXiv, i když tvrzení bylo nesprávné.
Dále poukazuje na důležitou výhradu, že problém nelze vyjádřit v Lean a proto se ukázalo jako něco zcela triviálního a irelevantního.
Přidali jsme Claude-Opus-4.6 do MathAreny! Je to silný model, na většině benchmarků druhý za Gemini-3.1-Pro. Jedna výjimka: ve vizuální matematice si vede poměrně špatně.
Navíc je drahý: za přidání modelu jsme utratili kolem 8 000 USD, což je 10x u každého jiného modelu, který jsme kdy hodnotili.