1/ Los MLP densos son mentira. Los transformadores estándar que entrenamos ya están haciendo enrutamiento disperso dentro de sus capas de feedforward—simplemente no lo veíamos hasta ahora. 🧵