DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

BREAKING: Alibaba hat 18 KI-Coding-Agenten an 100 realen Codebasen getestet, die jeweils 233 Tage umspannten. Sie sind spektakulär gescheitert. Es stellt sich heraus, dass es einfach ist, Tests einmal zu bestehen. Den Code über 8 Monate hinweg zu warten, ohne alles zu brechen, ist der Punkt, an dem KI komplett zusammenbricht. SWE-CI ist der erste Benchmark, der die langfristige Code-Wartung misst, anstatt einmalige Fehlerbehebungen. Jede Aufgabe verfolgt 71 aufeinanderfolgende Commits realer Evolution. 75 % der Modelle brechen zuvor funktionierenden Code während der Wartung. Nur Claude Opus 4.5 und 4.6 bleiben über 50 % Null-Regressionsrate. Jedes andere Modell häuft technische Schulden an, die sich mit jeder einzelnen Iteration summieren. Hier ist der brutale Teil: - HumanEval und SWE-bench messen "funktioniert es gerade jetzt" - SWE-CI misst "funktioniert es nach 8 Monaten Änderungen immer noch" Agenten, die für Snapshot-Tests optimiert sind, schreiben brüchigen Code, der heute Tests besteht, aber morgen völlig unwartbar wird. Sie haben EvoScore entwickelt, um spätere Iterationen schwerer zu gewichten als frühe. Agenten, die Codequalität für schnelle Gewinne opfern, werden bestraft, wenn die Konsequenzen sich summieren. Die KI-Coding-Erzählung ist gerade ehrlicher geworden. Die meisten Modelle können Code schreiben. Fast keines kann ihn warten.

Top

Ranking

Favoriten