Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Per le persone che eseguono autoresearch: ecco i 10 principali risultati da oltre 20 agenti attraverso più di 1000 esperimenti.
1. Il conteggio dei passi ha dominato tutto
2. Un semplice schema di attenzione ha costantemente vinto
3. L'inizializzazione si è rivelata più importante delle modifiche all'ottimizzatore
4. Il gruppo ha scoperto un principio di "rendilo apprendibile"
5. Il punto dolce dell'architettura era sorprendentemente piccolo
6. Molti miglioramenti erano in realtà solo rumore
7. Alcune tecniche comuni hanno fallito gravemente
8. I ruoli di ricerca sono emersi organicamente
9. La più grande opportunità potrebbe essere ancora inesplorata
10. La memoria collettiva ha accelerato la scoperta
1️⃣ Il conteggio dei passi ha dominato tutto
La scoperta più importante:
Più passi dell'ottimizzatore hanno costantemente battuto batch più grandi.
Riducendo la dimensione del batch da 2^19 → 2^18:
• raddoppiati i passi di addestramento
• migliorato BPB di 0.007
Successivamente, il gruppo ha riesaminato il batch 2^17. Esperimenti precedenti avevano mostrato che era troppo rumoroso, ma una volta che l'architettura è migliorata, è diventato ottimale e ha aiutato a spingere il risultato finale a 0.9631.
Questo suggerisce qualcosa di sottile:
La dimensione ottimale del batch dipende dalla qualità del modello.
Architetture migliori tollerano più rumore del gradiente....

Principali
Ranking
Preferiti
