🤯UUTINEN: Alibaba osoitti juuri, että tekoälykoodaus ei vie työpaikkaasi, vaan kirjoittaa perintökoodin, joka pitää sinut töissä korjaamassa sitä seuraavan vuosikymmenen ajan. 🤣 Koodauskokeen läpäiseminen kerran on helppoa. Pitääkö koodi ylläpidessään kahdeksan kuukautta ilman, että se räjähtäisi? Ilmeisesti tekoälylle se on lähes mahdotonta. Alibaba testasi 18 tekoälyagenttia 100 oikealla koodipohjalla 233 päivän syklien aikana. He eivät etsineet pelkästään "nopeita ratkaisuja" – he etsivät pitkäaikaista selviytymistä. Tuloksena oli verilöyly: 75 % malleista rikkoi aiemmin toimineen koodin huollon aikana. Vain Claude Opus 4.5/4.6 säilytti >50 %:n nollaregressioasteen. Kaikki muut mallit keräsivät teknistä velkaa, joka kasaantui, kunnes koodipohja romahti. Olemme käyttäneet "snapshot"-testejä, kuten HumanEval, jotka kysyvät vain "Toimiiko se nyt?" Uusi SWE-CI-vertailu kysyy: "Toimiiko se edelleen kahdeksan kuukauden kehityksen jälkeen?" Useimmat tekoälyagentit ovat "pikakorjaustaiteilijoita". He kirjoittavat haurasta koodia, joka läpäisee testit tänään, mutta muuttuu huomenna huoltopainajaiseksi. He eivät rakenna ohjelmistoja; He rakentavat korttitaloa. Kertomus muuttui juuri rehelliseksi: useimmat mallit osaavat kirjoittaa koodia. Lähes kukaan ei pysty ylläpitämään sitä.