自動調査を行う方へ:20+のエージェントによる1000+実験のトップ10の発見を紹介します。 1. 歩数がすべてを支配していた 2. 単純な注意パターンが一貫して勝利した 3. 最適化の調整よりも初期化の方が重要であることが判明しました 4. 群れは「学習可能にする」原理を発見した 5. 建築のスイートスポットは意外と小さかった 6. 多くの改良は実際には単なるノイズでした 7. いくつかの一般的な技術は大きく失敗した 8. 研究の役割は自然発生的に生まれました 9. 最大のチャンスはまだ探求されていないかもしれない 10. 集合的記憶加速発見 1️そして 歩数がすべてを支配していた 最も重要な発見: より多くのオプティマイザーステップが、より大きなバッチを常に上回ります。 バッチサイズを2^19から2^18→半減: ・訓練ステップを倍増 ・BPBを0.007改善 その後、群れはバッチ2^17を再訪しました。以前の実験ではノイズが多すぎることが示されましたが、アーキテクチャが改善されると最適となり、最終的な結果は0.9631まで上昇しました。 これは微妙なことを示唆しています: 最適なバッチサイズはモデルの品質に依存します。 より良いアーキテクチャはより多くの勾配ノイズに耐えられます。...