1/ I Dense MLP sono una bugia. I trasformatori standard che alleniamo stanno già facendo routing sparso all'interno dei loro strati feedforward—non riuscivamo a vederlo fino ad ora. 🧵