1/ MLPs densos são uma mentira. Os transformadores padrão que treinamos já estão fazendo roteamento esparso dentro de suas camadas de feedforward—nós apenas não conseguimos ver isso até agora. 🧵