1/ Los MLP densos son una mentira. Los transformadores estándar que entrenamos ya están realizando enrutamiento disperso dentro de sus capas de avance—simplemente no podíamos verlo hasta ahora. 🧵