Использовал автоисследование, чтобы сделать @grail_ai GRPO тренер на 1.8x быстрее на одном B200. Я откладывал это в течение нескольких недель, так как узким местом в нашей децентрализованной системе в основном было общение. Но после того, как наша предложенная техника PULSE сделала синхронизацию весов в 100 раз быстрее, обновление обучения само стало узким местом. Даже с полностью асинхронным тренером и выводом, медленный тренер убивает скорость сходимости. Задача, которая могла занять дни моего времени, выполнялась параллельно, пока я работал над другими делами. В отличие от оригинального автоисследования, где каждый эксперимент занимает 5 минут, наш цикл обратной связи намного длиннее (10-17 минут на эпоху + 10-60 минут на установки и изменения кода), поэтому я минимально управлял, когда он двигался в плохом направлении, чтобы избежать потери часов GPU. Агент пробовал так много вещей, которые не сработали. Но в конечном итоге нашел успехи: ядро Liger, упаковка последовательностей, динамическое пакетирование по токен-бюджету и нативный FA4 через AttentionInterface. 27% до 47% MFU. 16.7 минут до 9.2 минут на эпоху. Если хотите углубиться или внести свой вклад: Мы оптимизируем все на уровне глобальных узлов, чтобы сделать децентрализованное постобучение таким же быстрым, как централизованное. Ожидайте появления крутых моделей, выходящих из этих усилий. Удачи!