🤯NOTÍCIA DE ÚLTIMA HORA: A Alibaba acabou de provar que a programação com IA não está a tirar o seu emprego, está apenas a escrever o código legado que o manterá empregado a consertá-lo na próxima década. 🤣 Passar um teste de programação uma vez é fácil. Manter esse código por 8 meses sem que ele exploda? Aparentemente, é quase impossível para a IA. A Alibaba testou 18 agentes de IA em 100 bases de código reais ao longo de ciclos de 233 dias. Eles não procuraram apenas por "soluções rápidas"—procuraram por sobrevivência a longo prazo. Os resultados foram um massacre: 75% dos modelos quebraram código que anteriormente funcionava durante a manutenção. Apenas o Claude Opus 4.5/4.6 manteve uma taxa de zero-regressão >50%. Todos os outros modelos acumularam dívida técnica que se intensificou até que a base de código colapsasse. Temos usado benchmarks de "instantâneo" como o HumanEval que apenas perguntam "Funciona agora?" O novo benchmark SWE-CI pergunta: "Ainda funciona após 8 meses de evolução?" A maioria dos agentes de IA são "Artistas de Soluções Rápidas." Eles escrevem código frágil que passa em testes hoje, mas se torna um pesadelo de manutenção amanhã. Eles não estão a construir software; estão a construir uma casa de cartas. A narrativa acabou de se tornar honesta: A maioria dos modelos consegue escrever código. Quase nenhum consegue mantê-lo.