Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dla osób prowadzących autoresearch: oto 10 najważniejszych odkryć z ponad 20 agentów w ponad 1000 eksperymentach.
1. Liczba kroków dominowała wszystko
2. Prosty wzór uwagi konsekwentnie wygrywał
3. Inicjalizacja okazała się ważniejsza niż poprawki optymalizatora
4. Rój odkrył zasadę „spraw, aby było uczące się”
5. Słodkie miejsce architektury było zaskakująco małe
6. Wiele ulepszeń było w rzeczywistości tylko szumem
7. Niektóre powszechne techniki zawiodły
8. Role badawcze pojawiły się organicznie
9. Największa okazja może być nadal nieodkryta
10. Pamięć zbiorowa przyspieszyła odkrycia
1️⃣ Liczba kroków dominowała wszystko
Najważniejsze odkrycie:
Więcej kroków optymalizatora konsekwentnie przewyższało większe partie.
Zmniejszenie rozmiaru partii z 2^19 → 2^18:
• podwojona liczba kroków treningowych
• poprawa BPB o 0.007
Później rój ponownie zbadał partię 2^17. Wcześniejsze eksperymenty pokazały, że był zbyt hałaśliwy, ale gdy architektura się poprawiła, stał się optymalny i pomógł podnieść ostateczny wynik do 0.9631.
To sugeruje coś subtelnego:
Optymalny rozmiar partii zależy od jakości modelu.
Lepsze architektury tolerują więcej szumów gradientowych....

Najlepsze
Ranking
Ulubione
