1/ Нелинейные RNN не провалились в языковом моделировании из-за нелинейности. Они провалились, потому что векторные скрытые состояния сжимают слишком много контекста. Расширение состояния до матрицы меняет всё. 🧵