BREAKING: Alibaba heeft 18 AI-coderingsagenten getest op 100 echte codebases, verspreid over 233 dagen elk. ze faalden spectaculair. het blijkt dat het gemakkelijk is om tests één keer te doorstaan. het onderhouden van code gedurende 8 maanden zonder alles te breken is waar AI volledig instort. SWE-CI is de eerste benchmark die de lange termijn codeonderhoud meet in plaats van eenmalige bugfixes. elke taak volgt 71 opeenvolgende commits van echte evolutie. 75% van de modellen breekt eerder werkende code tijdens onderhoud. alleen Claude Opus 4.5 en 4.6 blijven boven de 50% nul-regressiepercentage. elk ander model accumuleert technische schuld die zich met elke enkele iteratie opstapelt. hier is het brute deel: - HumanEval en SWE-bench meten "werkt het nu" - SWE-CI meet "werkt het nog steeds na 8 maanden van wijzigingen" agenten die geoptimaliseerd zijn voor snapshot-testing schrijven broze code die vandaag de tests doorstaat maar morgen volledig ononderhoudbaar wordt. dezelfde EvoScore is ontwikkeld om latere iteraties zwaarder te wegen dan vroege. agenten die codekwaliteit opofferen voor snelle overwinningen worden bestraft wanneer de gevolgen zich opstapelen. de AI-coderingsverhaal is net eerlijker geworden. de meeste modellen kunnen code schrijven. bijna geen enkele kan het onderhouden.