Gebruikte autoresearch om @grail_ai GRPO trainer 1.8x sneller te maken op een enkele B200. Ik bleef dit weken uitstellen omdat de bottleneck in ons gedecentraliseerde framework voornamelijk communicatie was. Maar na onze voorgestelde techniek, PULSE, die gewichtssynchronisatie 100x sneller maakte, werd de training update zelf de bottleneck. Zelfs met een volledig asynchrone trainer en inferentie, doodt een trage trainer de convergentiesnelheid. Een taak die dagen van mijn tijd had kunnen opslokken, draaide parallel terwijl ik aan andere dingen werkte. In tegenstelling tot de originele autoresearch, waar elk experiment 5 minuten duurt, is onze feedbackloop veel langer (10-17 minuten per epoch + 10-60 minuten voor installaties en codewijzigingen), dus ik deed minimale sturing wanneer het in verkeerde richtingen ging om te voorkomen dat ik GPU-uren verbrandde. De agent probeerde zoveel dingen die faalden. Maar uiteindelijk vond het de overwinningen: Liger-kernel, sequentiepakketten, token-budget dynamische batching, en native FA4 via AttentionInterface. 27% tot 47% MFU. 16,7 minuten naar 9,2 minuten per epoch. Als je dieper wilt graven of wilt bijdragen: We optimaliseren alles op de schaal van wereldwijde knooppunten om gedecentraliseerde post-training net zo snel te maken als gecentraliseerde. Blijf op de hoogte van enkele coole modellen die uit deze inspanning voortkomen. Proost!