DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Käytin automaattitutkimusta tehdäkseni @grail_ai GRPO-koulukoneesta 1,8 kertaa nopeamman yhdellä B200:lla. Lykkäsin tätä viikkoja, koska hajautetun kehyksemme pullonkaula oli pääasiassa viestintä. Mutta kun ehdottamamme tekniikka, PULSE, teki painojen synkronoinnista 100 kertaa nopeamman, itse harjoituspäivitys muodostui pullonkaulaksi. Vaikka käytössä olisi täysin asynkroninen kouluttaja ja inferenssi, hidas kouluttaja tappaa konvergenssinopeuden. Tehtävä, joka olisi voinut viedä päiviä ajastani, kulki rinnakkain samalla kun tein muita asioita. Toisin kuin alkuperäisessä automaattitutkimuksessa, jossa jokainen kokeilu kestää 5 minuuttia, meidän palautesilmukka on paljon pidempi (10–17 minuuttia per eposki + 10–60 minuuttia asennuksia ja koodin muutoksia), joten ohjasin vain vähän, kun kone meni huonoihin suuntiin, jotta en kuluttaisi GPU-tunteja. Agentti kokeili niin monia asioita, jotka epäonnistuivat. Mutta lopulta löysin voitot: Liger-ydin, sekvenssipakkaus, token-budjetin dynaaminen eräajo ja natiivi FA4 AttentionInterfacen kautta. 27 % vastaan 47 % MFU. 16,7 minuutista 9,2 minuuttiin per jakso. Jos haluat kaivaa syvemmälle tai osallistua: Optimoimme kaiken globaalien solmujen mittakaavassa, jotta hajautettu jälkikoulutus olisi yhtä nopea kuin keskitetyt solmut. Pysy kuulolla, sillä tästä hankkeesta on tulossa siistejä malleja. Kippis!

Johtavat

Rankkaus

Suosikit