Я вважаю, що це хороший спосіб візуалізувати гонку ШІ за допомогою довготривалого бенчмарку GPQA Diamond. Ви можете побачити, як довго OpenAI мав цю сферу лише для себе, як злетів (і крах) Meta, раптове наздоганяння (а потім стагнацію) xAI та появу відкритих китайських LLM з відкритими вагами.
Тест питань і відповідей рівня магістратури (GPQA) — це серія складних задач з вибором відповіді, розроблених для перевірки поглиблених знань. Ті, хто не має доступу до інтернету, отримують 34% правди, а PhD з доступом до інтернету — 65-70% у своїй спеціальності. Ми, ймовірно, близькі до насичення
Я наказав Кодексу зробити це. Дані з @EpochAIResearch.
1,43K