Відкриті ваги — це не відкрите тренування. @AddieF38654 з нашої команди описала свій досвід спроб посттренувати модель MoE з параметром 1T, використовуючи існуючу відкриту інфраструктуру. Давайте дізнаємося, скільки «мавпячих патчів» потрібно, щоб посттренувати модель відкритих ваг. Нитка🧵