ÚLTIMA HORA: A Alibaba testou 18 agentes de codificação AI em 100 bases de código reais, ao longo de 233 dias cada. eles falharam espetacularmente. acontece que passar testes uma vez é fácil. manter o código por 8 meses sem quebrar tudo é onde a AI colapsa completamente. O SWE-CI é o primeiro benchmark que mede a manutenção de código a longo prazo em vez de correções de bugs pontuais. cada tarefa rastreia 71 commits consecutivos de evolução real. 75% dos modelos quebram código que anteriormente funcionava durante a manutenção. apenas Claude Opus 4.5 e 4.6 mantêm uma taxa de zero-regressão acima de 50%. todos os outros modelos acumulam dívida técnica que se compõe a cada iteração. a parte brutal é: - HumanEval e SWE-bench medem "funciona agora" - SWE-CI mede "ainda funciona após 8 meses de mudanças" agentes otimizados para testes instantâneos escrevem código frágil que passa nos testes hoje, mas se torna completamente insustentável amanhã. eles construíram o EvoScore para pesar iterações posteriores mais pesadamente do que as iniciais. agentes que sacrificam a qualidade do código por vitórias rápidas são punidos quando as consequências se acumulam. a narrativa da codificação AI acaba de se tornar mais honesta. a maioria dos modelos pode escrever código. quase nenhum pode mantê-lo.