1/ Les RNN non linéaires n'ont pas échoué dans la modélisation du langage à cause de la non-linéarité. Ils ont échoué parce que les états cachés vectoriels compressent trop de contexte. Élargir l'état à une matrice change tout. 🧵