🤯BREAKING: Alibaba heeft net bewezen dat AI Coderen je baan niet afpakt, het schrijft gewoon de legacy code die je de komende tien jaar in staat houdt om het te repareren. 🤣 Een codetest eenmaal doorstaan is gemakkelijk. Die code 8 maanden onderhouden zonder dat het explodeert? Blijkbaar is dat bijna onmogelijk voor AI. Alibaba testte 18 AI-agenten op 100 echte codebases over een periode van 233 dagen. Ze zochten niet alleen naar "snelle oplossingen"—ze zochten naar langdurige overleving. De resultaten waren een bloedbad: 75% van de modellen brak eerder werkende code tijdens het onderhoud. Alleen Claude Opus 4.5/4.6 handhaafde een >50% nul-regressiepercentage. Elk ander model accumuleerde technische schuld die zich ophoopte totdat de codebase instortte. We hebben "snapshot" benchmarks gebruikt zoals HumanEval die alleen vragen "Werkt het nu?" De nieuwe SWE-CI benchmark vraagt: "Werkt het nog steeds na 8 maanden evolutie?" De meeste AI-agenten zijn "Snelle-Oplossing Kunstenaars." Ze schrijven broze code die vandaag de tests doorstaat, maar morgen een onderhoudsnachtmerrie wordt. Ze bouwen geen software; ze bouwen een kaartenhuis. Het verhaal is net eerlijk geworden: De meeste modellen kunnen code schrijven. Bijna geen enkele kan het onderhouden.