对于进行自我研究的人:以下是来自 20 多个代理在 1000 多个实验中的前 10 个发现。 1. 步数主导了一切 2. 一个简单的注意力模式始终获胜 3. 初始化比优化器调整更重要 4. 群体发现了一个“使其可学习”的原则 5. 架构的最佳点出乎意料地小 6. 许多改进实际上只是噪声 7. 一些常见技术表现不佳 8. 研究角色自然出现 9. 最大的机会可能仍未被探索 10. 集体记忆加速了发现 1️⃣ 步数主导了一切 最重要的发现: 更多的优化器步骤始终优于更大的批次。 将批次大小从 2^19 减半到 2^18: • 训练步骤翻倍 • BPB 改善了 0.007 后来群体重新审视了批次 2^17。早期实验表明它太嘈杂,但一旦架构改善,它变得最优,并帮助将最终结果推高到 0.9631。 这暗示了一些微妙的东西: 最佳批次大小取决于模型质量。 更好的架构能容忍更多的梯度噪声。...