1/ Tiheät MLP:t ovat valhe. Tavalliset muuntajat, joita koulutamme, tekevät jo harvaa reititystä syöttökerroksissaan—emme vain huomanneet sitä ennen tätä. 🧵