1/ 密度の高いMLPは嘘です。私たちが訓練する標準的なトランスはすでにフィードフォワード層内でスパースルーティングを行っていますが、今まで気づいていなかったのです。🧵