Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ULTIMA PERIOADĂ: Alibaba a testat 18 agenți de codare AI pe 100 de baze de cod reale, pe o perioadă de 233 de zile fiecare. Au eșuat spectaculos.
Se pare că trecerea testelor o dată e ușoară. menținerea codului timp de 8 luni fără să strice totul este momentul în care AI-ul se prăbușește complet.
SWE-CI este primul benchmark care măsoară întreținerea pe termen lung a codului în loc de corecții de bug-uri dintr-o singură lovitură. Fiecare sarcină urmărește 71 de angajamente consecutive de evoluție reală.
75% dintre modele strică codul anterior funcțional în timpul întreținerii sale. doar Claude Opus 4.5 și 4.6 rămân peste 50% rata de regresie zero. fiecare alt model acumulează datorii tehnice care se acumulează cu fiecare iterație.
Iată partea brutală:
- Măsura HumanEval și SWE-bench "funcționează chiar acum"
- SWE-CI măsoară "mai funcționează după 8 luni de modificări"
Agenții optimizați pentru testarea snapshot scriu cod fragil care trece testele astăzi, dar devine complet neîntreținut mâine.
au construit EvoScore pentru a cântări iterațiile ulterioare mai grele decât cele timpurii. agenții care sacrifică calitatea codului pentru victorii rapide sunt pedepsiți când consecințele se acumulează.
narațiunea codării AI a devenit pur și simplu mai sinceră.
Majoritatea modelelor pot scrie cod. aproape nimeni nu o poate menține.

Limită superioară
Clasament
Favorite
