🤯速報:アリババは、AIコーディングがあなたの仕事を奪っているのではなく、単に雇用を維持できるレガシーコードを書いて修正しているだけだと証明しました。🤣 コーディングテストに一度合格するのは簡単です。そのコードを8ヶ月間メンテナンスしても爆発しなかった?どうやらAIにとってはほぼ不可能らしい。 アリババは100の実在コードベース上で233日サイクルで18人のAIエージェントをテストしました。彼らは単に「即効性のある解決策」を探すのではなく、長期的な生存を目指していました。 その結果は血みどろの惨劇となった。 75%のモデルがメンテナンス中に以前は動作していたコードを破損しました。 クロード作品4.5/4.6のみが>50%のゼロ回帰率を維持していました。 他のすべてのモデルは技術負債を積み重ね、それが複利的に積み重なり、最終的にコードベースが崩壊しました。 私たちはHumanEvalのような「スナップショット」ベンチマークを使ってきましたが、それは「今動作していますか?」というだけの質問です。 新しいSWE-CIベンチマークは「進化から8ヶ月経ってもまだ機能しますか?」と問いかけています。 ほとんどのAIエージェントは「クイックフィックスアーティスト」です。彼らは今日テストに合格する脆いコードを書いても、明日にはメンテナンスの悪夢になる。彼らはソフトウェアを作っているわけではありません。彼らはカードの家を作っている。 物語は正直になりました。ほとんどのモデルはコードを書けます。ほとんど誰もそれを維持できません。