Brukte autoresearch for å gjøre GRPO-treneren @grail_ai 1,8 ganger raskere på en enkelt B200. Jeg utsatte dette i flere uker siden flaskehalsen i vårt desentraliserte rammeverk hovedsakelig var kommunikasjon. Men etter at vår foreslåtte teknikk, PULSE, gjorde vektsynkroniseringen 100 ganger raskere, ble selve treningsoppdateringen flaskehalsen. Selv med en fullt asynkron trener og inferens, dreper en treg trener konvergenshastigheten. En oppgave som kunne ha tatt flere dager av tiden min, gikk parallelt mens jeg jobbet med andre ting. I motsetning til original autoresearch, hvor hvert eksperiment varer i 5 minutter, er tilbakemeldingssløyfen vår mye lengre (10-17 minutter per epoke + 10-60 minutter med installasjoner og kodeendringer), så jeg gjorde minimal styring når den gikk i dårlige retninger for å unngå å bruke GPU-timer. Agenten prøvde så mange ting som mislyktes. Men til slutt fant vi gevinstene: Liger-kjerne, sekvenspakking, token-budsjett dynamisk batching, og native FA4 via AttentionInterface. 27 % til 47 % MFU. 16,7 minutter til 9,2 minutter per epoke. Hvis du vil grave dypere eller bidra: Vi optimaliserer alt på globalt nivå for å gjøre desentralisert ettertrening like rask som sentraliserte. Følg med for noen kule modeller som kommer ut av dette prosjektet. Skål!