Використав автодослідження, щоб зробити @grail_ai GRPO-тренажер у 1,8 раза швидшим на одному B200. Я відкладав це тижнями, оскільки вузьким місцем у нашій децентралізованій структурі було переважно комунікація. Але після того, як наша запропонована техніка PULSE зробила синхронізацію ваги у 100 разів швидшою, саме оновлення тренувань стало вузьким місцем. Навіть із повністю асинхронним тренером і інференцією, повільний тренер вбиває швидкість конвергенції. Завдання, яке могло б зайняти дні мого часу, виконувалося паралельно, поки я займався іншими справами. На відміну від оригінального autoresearch, де кожен експеримент триває 5 хвилин, наш цикл зворотного зв'язку значно довший (10-17 хвилин на епоху + 10-60 хвилин встановлення та зміни коду), тому я мінімально керував, коли машина рухалася в неправильному напрямку, щоб не витратити години GPU. Агент спробував багато чого, що не вдалося. Але зрештою знайшов перемоги: ядро Liger, пакування послідовностей, динамічне пакетування з бюджетом токенів і нативний FA4 через AttentionInterface. 27% до 47% MFU. Від 16,7 хвилин до 9,2 хвилин на епоху. Якщо хочете заглибитися або зробити внесок: Ми оптимізуємо все на рівні глобальних вузлів, щоб зробити децентралізоване постнавчання таким же швидким, як і централізовані. Слідкуйте за класними моделями, які з'явилися з цього проєкту. Дякую!