Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Я думаю, что это хороший способ визуализировать гонку ИИ, используя долгоживущий бенчмарк GPQA Diamond. Вы можете увидеть, как долго OpenAI владела полем, подъем (и крах) Meta, внезапное нагоняние (а затем стагнация) xAI и вход открытых весов китайских LLM.

Тест на уровень выпускника, защищенный от Google (GPQA), представляет собой серию сложных вопросов с выбором ответа, предназначенных для проверки углубленных знаний. Неэксперты с доступом в интернет отвечают правильно на 34%, а кандидаты наук с доступом в интернет — на 65-70% в своей специальности. Мы, вероятно, близки к насыщению.

Я приказал Codex, чтобы это было сделано. Данные от @EpochAIResearch.

1,4K

Топ

Рейтинг

Избранное