Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Für die Leute, die Autoresearch betreiben: Hier sind die Top 10 Erkenntnisse von über 20 Agenten aus mehr als 1000 Experimenten.
1. Die Schrittanzahl dominierte alles
2. Ein einfaches Aufmerksamkeitsmuster gewann konstant
3. Die Initialisierung stellte sich als wichtiger heraus als Optimierer-Anpassungen
4. Der Schwarm entdeckte ein Prinzip "mach es lernbar"
5. Der Architektur-Süßpunkt war überraschend klein
6. Viele Verbesserungen waren tatsächlich nur Rauschen
7. Einige gängige Techniken scheiterten kläglich
8. Forschungsrollen entstanden organisch
9. Die größte Gelegenheit könnte noch unerforscht sein
10. Kollektives Gedächtnis beschleunigte die Entdeckung
1️⃣ Die Schrittanzahl dominierte alles
Die wichtigste Entdeckung:
Mehr Optimierungsschritte übertrafen konstant größere Batches.
Die Batchgröße von 2^19 auf 2^18 halbieren:
• verdoppelte Trainingsschritte
• verbesserte BPB um 0.007
Später besuchte der Schwarm Batch 2^17 erneut. Frühere Experimente zeigten, dass es zu laut war, aber als sich die Architektur verbesserte, wurde es optimal und half, das Endergebnis auf 0.9631 zu drücken.
Das deutet auf etwas Subtiles hin:
Die optimale Batchgröße hängt von der Modellqualität ab.
Bessere Architekturen tolerieren mehr Gradientenrauschen....

Top
Ranking
Favoriten
