1/ MLP-urile dense sunt o minciună. Transformatoarele standard pe care le antrenăm deja fac rutare rară în straturile lor feedforward — doar că nu am putut vedea asta până acum. 🧵