La tua AI ha smesso di ricordare tutto ciò che le hai detto. Non casualmente. Non rumorosamente. Sistematicamente. A partire dalle decisioni che contano di più. > Il vincolo che hai impostato tre mesi fa "non usare mai Redis, il cliente lo ha vietato dopo un incidente in produzione." Sparito. La restrizione sulla regione di distribuzione GDPR. Sparita. Il limite di ripetizione che hai testato empiricamente dopo il fallimento a cascata. Sparito. > Il modello non te lo ha mai detto. Ha semplicemente iniziato a usare i valori predefiniti. > Questo si chiama decadimento del contesto. E i ricercatori di Cambridge e Independent hanno appena quantificato esattamente quanto sia grave. > Ogni sistema AI in produzione che funziona abbastanza a lungo alla fine comprimerà il suo contesto per fare spazio a nuove informazioni. Quella compressione è catastroficamente perdente. L'hanno testata direttamente: 2.000 fatti compressi a 36,7× hanno lasciato il 60% della base di conoscenza permanentemente irrecuperabile. Non allucinato. Non sbagliato. Semplicemente sparito. Il modello ha onestamente riportato di non avere più le informazioni. > Poi hanno testato qualcosa di peggio. Hanno incorporato 20 vincoli di progetto reali in una conversazione di 88 turni, il tipo di vincoli che emergono naturalmente in qualsiasi progetto a lungo termine, e poi hanno applicato una compressione a cascata esattamente come fanno i sistemi di produzione. Dopo un giro: 91% preservato. Dopo due giri: 62%. Dopo tre giri: 46%. > Il modello ha continuato a lavorare con piena fiducia per tutto il tempo. Generando output che violavano i vincoli dimenticati. Nessun segnale di errore. Nessun avviso. Solo un silenzioso ritorno ai valori predefiniti ragionevoli che si sono rivelati sbagliati per la tua situazione specifica. > Hanno testato questo su quattro modelli all'avanguardia. Claude Sonnet 4.5, Claude Sonnet 4.6, Opus, GPT-5.4. Ognuno di essi è collassato sotto compressione. Non è un problema del modello. È architettonico. → 60% dei fatti persi permanentemente dopo un singolo passaggio di compressione → 54% dei vincoli di progetto spariti dopo tre giri di compressione a cascata → GPT-5.4 è sceso a 0% di accuratezza con solo 2× di compressione → Anche Opus ha mantenuto solo il 5% dei fatti a 20× di compressione → La memoria in contesto costa $14.201/anno per 7.000 fatti contro $56/anno per l'alternativa I laboratori AI sanno questo. La loro soluzione sono finestre di contesto più grandi. Una finestra di 10 milioni di token è un secchio più grande. È comunque un secchio. La compattazione è inevitabile per qualsiasi sistema a lungo termine. La dimensione della finestra determina solo quando inizia l'oblio, non se accade.