1/ 非線形RNNが言語モデリングで失敗したのは、非線形性のせいではありません。しかし、ベクトル隠れ状態は文脈を圧縮しすぎているため失敗しました。 状態を行列に展開すると、すべてが変わります。🧵