BREAKING: Alibaba testade 18 AI-kodagenter på 100 riktiga kodbaser, vardera på 233 dagar. De misslyckades spektakulärt. Det visar sig att det är lätt att klara proven en gång. Att underhålla koden i åtta månader utan att förstöra allt är där AI helt kollapsar. SWE-CI är det första benchmarket som mäter långsiktigt kodunderhåll istället för engångs-buggfixar. Varje uppgift följer 71 på varandra följande commits av verklig evolution. 75 % av modellerna bryter tidigare fungerande kod under underhåll. endast Claude Opus 4.5 och 4.6 håller sig över 50 % nollregressionsfrekvens. Varannan modell ackumulerar teknisk skuld som ackumuleras för varje iteration. Här kommer den brutala delen: - HumanEval och SWE-bench-mätning "fungerar det just nu" - SWE-CI-mått "fungerar det fortfarande efter 8 månaders förändringar" agenter optimerade för snapshot-testning skriver sprött kod som klarar tester idag men blir helt ounderhållbar imorgon. de byggde EvoScore för att väga senare iterationer tyngre än de tidiga. Agenter som offrar kodkvalitet för snabba vinster straffas när konsekvenserna blir tunga. AI-kodningsberättelsen blev just ärligare. De flesta modeller kan skriva kod. Nästan ingen kan upprätthålla den.