Använde autoresearch för att göra @grail_ai GRPO-tränare 1,8 gånger snabbare på en enda B200. Jag sköt upp detta i veckor eftersom flaskhalsen i vårt decentraliserade ramverk främst var kommunikation. Men efter att vår föreslagna teknik, PULSE, gjorde viktsynkroniseringen 100 gånger snabbare, blev själva träningsuppdateringen flaskhalsen. Även med en helt asynkron tränare och inferens, dödar en långsam tränare konvergenshastigheten. En uppgift som kunde ha tagit dagar av min tid pågick parallellt medan jag jobbade med annat. Till skillnad från original autoresearch, där varje experiment är 5 minuter, är vår feedbackloop mycket längre (10-17 minuter per epok + 10-60 minuter installation och kodändringar), så jag gjorde minimal styrning när den gick i fel riktning för att undvika att bränna GPU-timmar. Agenten försökte så många saker som misslyckades. Men till slut hittade de vinsterna: Liger-kärna, sekvenspackning, token-budget dynamisk batchning och inhemsk FA4 via AttentionInterface. 27 % till 47 % MFU. 16,7 minuter till 9,2 minuter per epok. Om du vill gräva djupare eller bidra: Vi optimerar allt i global noder för att göra decentraliserad efterträning lika snabb som centraliserad. Håll utkik efter några häftiga modeller som kommer ur detta projekt. Skål!