1/ Нелінійні RNN не зазнали невдачі у мовному моделюванні через нелінійність. Вони не вдалися, бо векторні приховані стани стискають надто багато контексту. Розширення стану до матриці змінює все. 🧵