Aristoteles hat gerade behauptet, dass es Q8 aus BrokenArXiv formal bewiesen hat, obwohl die Aussage falsch ist.
Es wird dann auf einen wichtigen Vorbehalt hingewiesen, der besagt, dass das Problem nicht in Lean ausdrückbar ist und es daher stattdessen etwas völlig Triviales und Irrelevantes bewiesen hat.
Wir haben Claude-Opus-4.6 zu MathArena hinzugefügt! Es ist ein starkes Modell, das nur an zweiter Stelle hinter Gemini-3.1-Pro in den meisten Benchmarks steht. Eine Ausnahme: Es schneidet in der visuellen Mathematik ziemlich schlecht ab.
Außerdem ist es teuer: Wir haben etwa 8.000 USD ausgegeben, um das Modell hinzuzufügen, das ist das 10-fache von jedem anderen Modell, das wir jemals bewertet haben.