Sua IA tem esquecido silenciosamente tudo o que você lhe disse. Não de forma aleatória. Não em voz alta. Sistematicamente. Começando pelas decisões que mais importam. > A restrição que você estabeleceu há três meses "nunca use Redis, o cliente vetou após um incidente de produção." Sumiu. A restrição da região de implantação do GDPR. Sumiu. O limite de retentativas que você testou empiricamente após a falha em cascata. Sumiu. > A modelo nunca te contou. Ele simplesmente começou a usar os defaults. > Isso é chamado de podridão do contexto. E pesquisadores de Cambridge e Independent acabaram de quantificar exatamente o quão ruim ela é. > Todo sistema de IA de produção que roda tempo suficiente eventualmente comprime seu contexto para abrir espaço para novas informações. Essa compressão é catastrófica e perdida. Eles testaram diretamente: 2.000 fatos comprimidos a 36,7× deixaram 60% da base de conhecimento permanentemente irrecuperável. Não alucinações. Não está errado. Simplesmente sumiu. A modelo honestamente disse que não tinha mais essa informação. > Depois testaram algo pior. Eles incorporaram 20 restrições reais de projeto em uma conversa de 88 turnos, o tipo de restrições que surgem naturalmente em qualquer projeto de longa duração, e então aplicaram compressão em cascata, exatamente como os sistemas de produção fazem. Após uma rodada: 91% preservado. Após duas rodadas: 62%. Após três rodadas: 46%. > O modelo continuou trabalhando com total confiança o tempo todo. Gerando saídas que violavam as restrições esquecidas. Sem sinal de erro. Sem aviso. Apenas retorno silencioso a padrões razoáveis que estavam errados para a sua situação específica. > Eles testaram isso em quatro modelos de fronteira. Claude Sonnet 4.5, Claude Sonnet 4.6, Opus, GPT-5.4. Todos desabaram sob compressão. Isso não é um problema de modelo. É arquitetônico. → 60% dos fatos perdidos permanentemente após uma única passagem de compressão → 54% das restrições do projeto foram eliminadas após três rodadas de compressão em cascata → GPT-5.4 caiu para 0% de precisão com apenas 2× compressão → Even Opus manteve apenas 5% dos fatos com compressão de 20× → A memória em contexto custa $14.201/ano com 7.000 fatos, contra $56/ano para a alternativa Os laboratórios de IA sabem disso. A solução deles são janelas de contexto maiores. Uma janela de 10M de tokens é um balde maior. Ainda é um balde. A compactação é inevitável para qualquer sistema de longa duração. O tamanho da janela só determina quando o esquecimento começa, não se isso acontece.