Votre IA a silencieusement oublié tout ce que vous lui avez dit. Pas au hasard. Pas bruyamment. Systématiquement. En commençant par les décisions qui comptent le plus. > La contrainte que vous avez définie il y a trois mois "ne jamais utiliser Redis, le client l'a refusé après un incident de production." Disparue. La restriction de région de déploiement GDPR. Disparue. La limite de réessai que vous avez testée empiriquement après l'échec en cascade. Disparue. > Le modèle ne vous a jamais dit. Il a simplement commencé à utiliser des valeurs par défaut. > Cela s'appelle la dégradation du contexte. Et des chercheurs de Cambridge et d'Independent ont quantifié exactement à quel point c'est grave. > Chaque système d'IA de production qui fonctionne assez longtemps finira par compresser son contexte pour faire de la place pour de nouvelles informations. Cette compression est catastrophiquement destructrice. Ils l'ont testé directement : 2 000 faits compressés à 36,7× ont laissé 60 % de la base de connaissances définitivement irrécupérable. Pas halluciné. Pas faux. Juste disparu. Le modèle a honnêtement rapporté qu'il n'avait plus l'information. > Ensuite, ils ont testé quelque chose de pire. Ils ont intégré 20 contraintes de projet réelles dans une conversation de 88 tours, le genre de contraintes qui émergent naturellement dans tout projet de longue durée, puis ont appliqué une compression en cascade exactement comme le font les systèmes de production. Après un tour : 91 % préservés. Après deux tours : 62 %. Après trois tours : 46 %. > Le modèle a continué à fonctionner avec une confiance totale tout le temps. Générant des sorties qui violaient les contraintes oubliées. Aucun signal d'erreur. Aucun avertissement. Juste un retour silencieux à des valeurs par défaut raisonnables qui se trouvaient être erronées pour votre situation spécifique. > Ils ont testé cela sur quatre modèles de pointe. Claude Sonnet 4.5, Claude Sonnet 4.6, Opus, GPT-5.4. Chacun d'eux s'est effondré sous la compression. Ce n'est pas un problème de modèle. C'est architectural. → 60 % des faits définitivement perdus après un seul passage de compression → 54 % des contraintes de projet disparues après trois tours de compression en cascade → GPT-5.4 est tombé à 0 % de précision à seulement 2× compression → Même Opus n'a conservé que 5 % des faits à 20× compression → La mémoire contextuelle coûte 14 201 $/an pour 7 000 faits contre 56 $/an pour l'alternative Les laboratoires d'IA le savent. Leur solution est des fenêtres de contexte plus grandes. Une fenêtre de 10 millions de tokens est un seau plus grand. C'est toujours un seau. La compaction est inévitable pour tout système de longue durée. La taille de la fenêtre ne détermine que le moment où l'oubli commence, pas si cela se produit.