Для тих, хто проводить автодослідження: ось топ-10 результатів від 20+ агентів за 1000+ експериментів. 1. Кількість кроків домінувала у всьому 2. Простий патерн уваги, який постійно перемагає 3. Ініціалізація виявилася важливішою за оптимізаторні налаштування 4. Рій відкрив принцип «зробити це навчивим» 5. Архітектурний баланс був дивовижно маленьким 6. Багато покращень насправді були просто шумом 7. Деякі поширені методи серйозно не справлялися 8. Дослідницькі ролі виникли органічно 9. Найбільша можливість може залишитися недослідженою 10. Прискорене відкриття колективної пам'яті 1️⃣ Кількість кроків домінувала у всьому Найважливіше відкриття: Більш оптимізовані кроки стабільно перемагають більші партії. Зменшення розміру партії вдвічі від 2^19 → 2^18: • подвоєні тренувальні кроки • покращений BPB на 0,007 Пізніше рій повернувся до партії 2^17. Попередні експерименти показали, що він надто шумний, але після покращення архітектури він став оптимальним і допоміг підняти кінцевий результат до 0,9631. Це натякає на щось тонке: Оптимальний розмір партії залежить від якості моделі. Кращі архітектури витримують більший градієнтний шум....