BREAKING: Alibaba menguji 18 agen pengkodean AI pada 100 basis kode nyata, masing-masing mencakup 233 hari. mereka gagal secara spektakuler. Ternyata lulus tes sekali itu mudah. mempertahankan kode selama 8 bulan tanpa merusak semuanya adalah tempat AI benar-benar runtuh. SWE-CI adalah tolok ukur pertama yang mengukur pemeliharaan kode jangka panjang alih-alih perbaikan bug satu kali. Setiap tugas melacak 71 komitmen berturut-turut dari evolusi nyata. 75% model merusak kode yang berfungsi sebelumnya selama pemeliharaan. hanya Claude Opus 4.5 dan 4.6 yang tetap di atas tingkat regresi nol 50%. setiap model lain mengakumulasi hutang teknis yang bertambah dengan setiap iterasi. Inilah bagian brutalnya: - HumanEval dan SWE-bench measure "apakah itu berhasil sekarang" - Langkah-langkah SWE-CI "apakah masih berfungsi setelah 8 bulan perubahan" Agen yang dioptimalkan untuk pengujian rekam jepret menulis kode rapuh yang lulus pengujian hari ini tetapi menjadi benar-benar tidak dapat dipelihara besok. mereka membangun EvoScore untuk menimbang iterasi selanjutnya lebih berat daripada yang awal. Agen yang mengorbankan kualitas kode untuk kemenangan cepat akan dihukum ketika konsekuensinya bertambah. narasi pengkodean AI menjadi lebih jujur. Sebagian besar model dapat menulis kode. hampir tidak ada yang bisa mempertahankannya.