Použil jsem autoresearch, abych udělal @grail_ai GRPO trenažér 1,8x rychlejší na jednom B200. Týdny jsem to odkládal, protože úzkým hrdlem v našem decentralizovaném systému byla hlavně komunikace. Ale poté, co naše navrhovaná technika PULSE zrychlila synchronizaci váhy 100×, se samotná aktualizace tréninku stala úzkým hrdlem. I s plně asynchronním trenažerem a inferencí pomalý trenér zabíjí konvergenční rychlost. Úkol, který by mi mohl zabrat dny času, běžel paralelně, zatímco jsem pracoval na jiných věcech. Na rozdíl od původního autoresearchu, kde každý experiment trvá 5 minut, je naše zpětná vazba mnohem delší (10-17 minut za epochu + 10-60 minut instalací a změn kódu), takže jsem při špatných směrech jen minimálně řídil, abych nespálil hodiny GPU. Agent zkoušel tolik věcí, které selhaly. Nakonec však našel úspěchy: jádro Liger, balení sekvencí, dynamické dávkování tokenů a nativní FA4 přes AttentionInterface. 27 % až 47 % MFU. 16,7 min až 9,2 min na epochu. Pokud chcete jít hlouběji nebo přispět: Optimalizujeme vše v měřítku globálních uzlů, aby decentralizované post-trénování bylo stejně rychlé jako centralizované. Sledujte nás pro několik skvělých modelů, které z tohoto projektu vzejdou. Díky!