トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯速報:アリババは、AIコーディングがあなたの仕事を奪っているのではなく、単に雇用を維持できるレガシーコードを書いて修正しているだけだと証明しました。🤣
コーディングテストに一度合格するのは簡単です。そのコードを8ヶ月間メンテナンスしても爆発しなかった?どうやらAIにとってはほぼ不可能らしい。
アリババは100の実在コードベース上で233日サイクルで18人のAIエージェントをテストしました。彼らは単に「即効性のある解決策」を探すのではなく、長期的な生存を目指していました。
その結果は血みどろの惨劇となった。
75%のモデルがメンテナンス中に以前は動作していたコードを破損しました。
クロード作品4.5/4.6のみが>50%のゼロ回帰率を維持していました。
他のすべてのモデルは技術負債を積み重ね、それが複利的に積み重なり、最終的にコードベースが崩壊しました。
私たちはHumanEvalのような「スナップショット」ベンチマークを使ってきましたが、それは「今動作していますか?」というだけの質問です。
新しいSWE-CIベンチマークは「進化から8ヶ月経ってもまだ機能しますか?」と問いかけています。
ほとんどのAIエージェントは「クイックフィックスアーティスト」です。彼らは今日テストに合格する脆いコードを書いても、明日にはメンテナンスの悪夢になる。彼らはソフトウェアを作っているわけではありません。彼らはカードの家を作っている。
物語は正直になりました。ほとんどのモデルはコードを書けます。ほとんど誰もそれを維持できません。

トップ
ランキング
お気に入り
