НЕСПОДІВАНО: Alibaba протестувала 18 агентів кодування ШІ на 100 реальних кодових базах, кожна тривалістю 233 дні. Вони зазнали нищівної поразки. Виявляється, скласти один тест — це легко. Підтримувати код 8 місяців, не зламавши все, — ось де ШІ повністю руйнується. SWE-CI — це перший бенчмарк, який вимірює довгострокове обслуговування коду, а не одноразове виправлення помилок. Кожне завдання відстежує 71 послідовний комітет реальної еволюції. 75% моделей порушують раніше працюючий код під час обслуговування. лише Claude Opus 4.5 і 4.6 залишаються вище 50% рівня нульової регресії. Кожна інша модель накопичує технічний борг, який накопичується з кожною ітерацією. Ось найжорстокіша частина: - HumanEval та SWE-bench міра «чи працює це зараз» - SWE-CI показники «чи працює він після 8 місяців змін» Агенти, оптимізовані для тестування знімків, пишуть крихкий код, який сьогодні проходить тести, але завтра стає повністю непідтримуваним. вони створили EvoScore так, щоб важити пізніші версії, більші за ранні. Агенти, які жертвують якістю коду заради швидких перемог, караються, коли наслідки накопичуються. наратив про програмування ШІ став більш чесним. Більшість моделей можуть писати код. майже ніхто не може його підтримувати.