Thật không thể tin được! @Kimi_Moonshot 2.5 Suy nghĩ đang giải quyết các bài toán Olympic Toán học từng cái một. P1 và P2 trong 6-8 phút. P6 sau hai lần thử.
Codex 5.2-xhigh và Gemini 3 Pro vẫn chưa giải được P6. Codex mất 54 phút cho P1. Gemini làm được trong 5 phút.
Để so sánh, các lần chạy trước ⬇️