Usei autoresearch para tornar o treinador GRPO do @grail_ai 1.8x mais rápido em um único B200. Eu vinha adiando isso por semanas, pois o gargalo em nossa estrutura descentralizada era principalmente a comunicação. Mas depois que nossa técnica proposta, PULSE, tornou a sincronização de pesos 100x mais rápida, a atualização do treinamento em si se tornou o gargalo. Mesmo com um treinador e inferência totalmente assíncronos, um treinador lento prejudica a velocidade de convergência. Uma tarefa que poderia ter consumido dias do meu tempo foi executada em paralelo enquanto eu trabalhava em outras coisas. Ao contrário do autoresearch original, onde cada experimento leva 5 minutos, nosso ciclo de feedback é muito mais longo (10-17 minutos por época + 10-60 minutos de instalações e mudanças de código), então fiz uma orientação mínima quando estava indo em direções ruins para evitar queimar horas de GPU. O agente tentou tantas coisas que falharam. Mas, eventualmente, encontrou as vitórias: kernel Liger, empacotamento de sequência, lotes dinâmicos de orçamento de tokens e FA4 nativo via AttentionInterface. 27% a 47% MFU. 16.7 minutos para 9.2 minutos por época. Se você quiser se aprofundar ou contribuir: Estamos otimizando tudo na escala de nós globais para tornar o pós-treinamento descentralizado tão rápido quanto os centralizados. Fique atento para alguns modelos legais que estão surgindo desse esforço. Saudações!