🤯ÚLTIMA HORA: Alibaba acaba de demostrar que la programación con IA no está quitándote el trabajo, solo está escribiendo el código legado que te mantendrá empleado arreglándolo durante la próxima década. 🤣 Pasar una prueba de codificación una vez es fácil. ¿Mantener ese código durante 8 meses sin que explote? Aparentemente, es casi imposible para la IA. Alibaba probó 18 agentes de IA en 100 bases de código reales durante ciclos de 233 días. No solo buscaron "soluciones rápidas"; buscaron la supervivencia a largo plazo. Los resultados fueron un desastre: El 75% de los modelos rompieron código que anteriormente funcionaba durante el mantenimiento. Solo Claude Opus 4.5/4.6 mantuvo una tasa de cero regresiones >50%. Cada otro modelo acumuló deuda técnica que se fue acumulando hasta que la base de código colapsó. Hemos estado usando benchmarks de "instantáneas" como HumanEval que solo preguntan "¿Funciona ahora mismo?" El nuevo benchmark SWE-CI pregunta: "¿Sigue funcionando después de 8 meses de evolución?" La mayoría de los agentes de IA son "Artistas de Soluciones Rápidas". Escriben código frágil que pasa las pruebas hoy pero se convierte en una pesadilla de mantenimiento mañana. No están construyendo software; están construyendo una casa de naipes. La narrativa acaba de volverse honesta: La mayoría de los modelos pueden escribir código. Casi ninguno puede mantenerlo.