J'ai utilisé l'autorecherche pour rendre le formateur GRPO de @grail_ai 1,8x plus rapide sur un seul B200. J'ai repoussé cela pendant des semaines car le goulot d'étranglement dans notre cadre décentralisé était principalement la communication. Mais après que notre technique proposée, PULSE, ait rendu la synchronisation des poids 100x plus rapide, la mise à jour de l'entraînement elle-même est devenue le goulot d'étranglement. Même avec un formateur et une inférence entièrement asynchrones, un formateur lent tue la vitesse de convergence. Une tâche qui aurait pu me prendre des jours s'est exécutée en parallèle pendant que je travaillais sur d'autres choses. Contrairement à l'autorecherche originale, où chaque expérience dure 5 minutes, notre boucle de rétroaction est beaucoup plus longue (10-17 minutes par époque + 10-60 minutes d'installations et de modifications de code), donc j'ai fait un minimum de direction quand cela allait dans de mauvaises directions pour éviter de brûler des heures de GPU. L'agent a essayé tellement de choses qui ont échoué. Mais, finalement, il a trouvé les réussites : noyau Liger, empaquetage de séquences, traitement dynamique de budget de jetons, et FA4 natif via AttentionInterface. 27% à 47% MFU. 16,7 minutes à 9,2 minutes par époque. Si vous voulez approfondir ou contribuer : Nous optimisons tout à l'échelle des nœuds mondiaux pour rendre le post-entraînement décentralisé aussi rapide que les centralisés. Restez à l'écoute pour des modèles intéressants issus de cet effort. À bientôt!