一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

对于进行自我研究的人：以下是来自 20 多个代理在 1000 多个实验中的前 10 个发现。 1. 步数主导了一切 2. 一个简单的注意力模式始终获胜 3. 初始化比优化器调整更重要 4. 群体发现了一个“使其可学习”的原则 5. 架构的最佳点出乎意料地小 6. 许多改进实际上只是噪声 7. 一些常见技术表现不佳 8. 研究角色自然出现 9. 最大的机会可能仍未被探索 10. 集体记忆加速了发现 1️⃣ 步数主导了一切最重要的发现：更多的优化器步骤始终优于更大的批次。将批次大小从 2^19 减半到 2^18： • 训练步骤翻倍 • BPB 改善了 0.007 后来群体重新审视了批次 2^17。早期实验表明它太嘈杂，但一旦架构改善，它变得最优，并帮助将最终结果推高到 0.9631。这暗示了一些微妙的东西：最佳批次大小取决于模型质量。更好的架构能容忍更多的梯度噪声。...