1/ Щільні MLP — це брехня. Стандартні трансформатори, які ми навчаємо, вже виконують розріджене маршрутизування всередині своїх фідфорвард-шарів — просто ми цього не бачили до цього моменту. 🧵