Я думаю, что это хороший способ визуализировать гонку ИИ, используя долгоживущий бенчмарк GPQA Diamond. Вы можете увидеть, как долго OpenAI владела полем, подъем (и крах) Meta, внезапное нагоняние (а затем стагнация) xAI и вход открытых весов китайских LLM.
Тест на уровень выпускника, защищенный от Google (GPQA), представляет собой серию сложных вопросов с выбором ответа, предназначенных для проверки углубленных знаний. Неэксперты с доступом в интернет отвечают правильно на 34%, а кандидаты наук с доступом в интернет — на 65-70% в своей специальности. Мы, вероятно, близки к насыщению.
Я приказал Codex, чтобы это было сделано. Данные от @EpochAIResearch.
1,4K