1/ Las RNN no lineales no fallaron en modelado de lenguaje debido a la no linealidad. Fallaron porque los estados ocultos vectoriales comprimen demasiado contexto. Expandir el estado a una matriz lo cambia todo. 🧵