🤯NOTIZIA: Alibaba ha appena dimostrato che la programmazione AI non ti sta portando via il lavoro, sta solo scrivendo il codice legacy che ti terrà occupato a sistemarlo per il prossimo decennio. 🤣 Superare un test di programmazione una volta è facile. Mantenere quel codice per 8 mesi senza che esploda? Apparentemente, è quasi impossibile per l'AI. Alibaba ha testato 18 agenti AI su 100 reali codebase in cicli di 233 giorni. Non hanno cercato solo "soluzioni rapide"—hanno cercato la sopravvivenza a lungo termine. I risultati sono stati un massacro: Il 75% dei modelli ha rotto codice precedentemente funzionante durante la manutenzione. Solo Claude Opus 4.5/4.6 ha mantenuto un tasso di regressione zero >50%. Ogni altro modello ha accumulato debito tecnico che si è accumulato fino a far collassare la codebase. Abbiamo usato benchmark "snapshot" come HumanEval che chiedono solo "Funziona adesso?" Il nuovo benchmark SWE-CI chiede: "Funziona ancora dopo 8 mesi di evoluzione?" La maggior parte degli agenti AI sono "Artisti delle Soluzioni Veloci." Scrivono codice fragile che supera i test oggi ma diventa un incubo di manutenzione domani. Non stanno costruendo software; stanno costruendo una casa di carte. La narrazione è appena diventata onesta: La maggior parte dei modelli può scrivere codice. Quasi nessuno può mantenerlo.