Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Використав автодослідження, щоб зробити @grail_ai GRPO-тренажер у 1,8 раза швидшим на одному B200.
Я відкладав це тижнями, оскільки вузьким місцем у нашій децентралізованій структурі було переважно комунікація. Але після того, як наша запропонована техніка PULSE зробила синхронізацію ваги у 100 разів швидшою, саме оновлення тренувань стало вузьким місцем. Навіть із повністю асинхронним тренером і інференцією, повільний тренер вбиває швидкість конвергенції.
Завдання, яке могло б зайняти дні мого часу, виконувалося паралельно, поки я займався іншими справами. На відміну від оригінального autoresearch, де кожен експеримент триває 5 хвилин, наш цикл зворотного зв'язку значно довший (10-17 хвилин на епоху + 10-60 хвилин встановлення та зміни коду), тому я мінімально керував, коли машина рухалася в неправильному напрямку, щоб не витратити години GPU. Агент спробував багато чого, що не вдалося. Але зрештою знайшов перемоги: ядро Liger, пакування послідовностей, динамічне пакетування з бюджетом токенів і нативний FA4 через AttentionInterface.
27% до 47% MFU. Від 16,7 хвилин до 9,2 хвилин на епоху.
Якщо хочете заглибитися або зробити внесок:
Ми оптимізуємо все на рівні глобальних вузлів, щоб зробити децентралізоване постнавчання таким же швидким, як і централізовані. Слідкуйте за класними моделями, які з'явилися з цього проєкту.
Дякую!

Найкращі
Рейтинг
Вибране
