ULTIMA PERIOADĂ: Alibaba a testat 18 agenți de codare AI pe 100 de baze de cod reale, pe o perioadă de 233 de zile fiecare. Au eșuat spectaculos. Se pare că trecerea testelor o dată e ușoară. menținerea codului timp de 8 luni fără să strice totul este momentul în care AI-ul se prăbușește complet. SWE-CI este primul benchmark care măsoară întreținerea pe termen lung a codului în loc de corecții de bug-uri dintr-o singură lovitură. Fiecare sarcină urmărește 71 de angajamente consecutive de evoluție reală. 75% dintre modele strică codul anterior funcțional în timpul întreținerii sale. doar Claude Opus 4.5 și 4.6 rămân peste 50% rata de regresie zero. fiecare alt model acumulează datorii tehnice care se acumulează cu fiecare iterație. Iată partea brutală: - Măsura HumanEval și SWE-bench "funcționează chiar acum" - SWE-CI măsoară "mai funcționează după 8 luni de modificări" Agenții optimizați pentru testarea snapshot scriu cod fragil care trece testele astăzi, dar devine complet neîntreținut mâine. au construit EvoScore pentru a cântări iterațiile ulterioare mai grele decât cele timpurii. agenții care sacrifică calitatea codului pentru victorii rapide sunt pedepsiți când consecințele se acumulează. narațiunea codării AI a devenit pur și simplu mai sinceră. Majoritatea modelelor pot scrie cod. aproape nimeni nu o poate menține.