A sua IA tem esquecido silenciosamente tudo o que você lhe disse. Não aleatoriamente. Não em voz alta. Sistematicamente. Começando pelas decisões que mais importam. > A restrição que você definiu há três meses "nunca use Redis, o cliente vetou isso após um incidente de produção." Desapareceu. A restrição da região de implantação do GDPR. Desapareceu. O limite de tentativas que você testou empiricamente após a falha em cascata. Desapareceu. > O modelo nunca lhe disse. Ele simplesmente começou a usar padrões. > Isso é chamado de deterioração de contexto. E pesquisadores de Cambridge e do Independent quantificaram exatamente quão ruim isso é. > Todo sistema de IA em produção que funciona por tempo suficiente eventualmente comprimirá seu contexto para abrir espaço para novas informações. Essa compressão é catastrófica e perde dados. Eles testaram isso diretamente: 2.000 fatos comprimidos a 36,7× deixaram 60% da base de conhecimento permanentemente irrecuperável. Não alucinado. Não errado. Apenas desaparecido. O modelo relatou honestamente que não tinha mais a informação. > Então eles testaram algo pior. Eles incorporaram 20 restrições reais de projeto em uma conversa de 88 turnos, o tipo de restrições que surgem naturalmente em qualquer projeto de longa duração, e então aplicaram compressão em cascata exatamente como os sistemas de produção fazem. Após uma rodada: 91% preservados. Após duas rodadas: 62%. Após três rodadas: 46%. > O modelo continuou a trabalhar com total confiança o tempo todo. Gerando saídas que violavam as restrições esquecidas. Sem sinal de erro. Sem aviso. Apenas uma reversão silenciosa para padrões razoáveis que acabaram sendo errados para a sua situação específica. > Eles testaram isso em quatro modelos de ponta. Claude Sonnet 4.5, Claude Sonnet 4.6, Opus, GPT-5.4. Cada um deles colapsou sob compressão. Este não é um problema de modelo. É arquitetônico. → 60% dos fatos permanentemente perdidos após uma única passagem de compressão → 54% das restrições de projeto desaparecidas após três rodadas de compressão em cascata → GPT-5.4 caiu para 0% de precisão com apenas 2× de compressão → Mesmo o Opus reteve apenas 5% dos fatos a 20× de compressão → A memória em contexto custa $14,201/ano a 7,000 fatos contra $56/ano para a alternativa Os laboratórios de IA sabem disso. A solução deles são janelas de contexto maiores. Uma janela de 10M tokens é um balde maior. Ainda é um balde. A compactação é inevitável para qualquer sistema de longa duração. O tamanho da janela apenas determina quando o esquecimento começa, não se isso acontece.