1/ Les MLP denses sont un mensonge. Les transformateurs standards que nous entraînons effectuent déjà un routage sparse à l'intérieur de leurs couches feedforward—nous ne pouvions tout simplement pas le voir jusqu'à présent. 🧵