Otomatik araştırma yapanlar için: işte 1000+ deneyde 20+ ajandan alınan en iyi 10 bulgu. 1. Adım sayısı her şeye hakim oldu 2. Basit bir dikkat deseni sürekli kazandı 3. Başlatma, optimizer ayarlarından daha önemli çıktı 4. Sürü, "öğrenilebilir kıl" ilkesi keşfetti 5. Mimari en iyi nokta şaşırtıcı derecede küçüktü 6. Birçok iyileştirme aslında sadece gürültüydü 7. Bazı yaygın teknikler kötü başarısız oldu 8. Araştırma rolleri organik olarak ortaya çıktı 9. En büyük fırsat hâlâ keşfedilmemiş olabilir 10. Kolektif hafıza hızlandırılmış keşif 1️⃣ Adım sayısı her şeyi domine etti En önemli keşif: Daha fazla optimizer adımı tutarlı olarak daha büyük partileri geride bırakıyor. Parti büyüklüğü 2^19 → 2^18'den yarıya indirilmiştir: • çift eğitim adımları • BPB 0.007 arttı Daha sonra sürü, 2^17 partisini tekrar ziyaret etti. Önceki deneyler çok gürültülü olduğunu gösterdi, ancak mimari geliştikçe optimal hale geldi ve nihai sonucu 0.9631'e çıkardı. Bu ince bir şeyi ima ediyor: Optimal parti büyüklüğü model kalitesine bağlıdır. Daha iyi mimariler daha fazla gradyan gürültüsüne tolere eder....