1/ RNNs não lineares não falharam na modelagem de linguagem por causa da não linearidade. Eles falharam porque estados ocultos vetoriais comprimem muito contexto. Expandir o estado para uma matriz muda tudo. 🧵