1/ 密集的多层感知机是个谎言。我们训练的标准变换器在其前馈层内部已经在进行稀疏路由——我们只是直到现在才看见这一点。 🧵