1/ Täta MLP:er är en lögn. De standardtransformatorer vi tränar gör redan gles ruttning inuti sina feedforward-lager – vi kunde bara inte se det förrän nu. 🧵