Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ÚLTIMA HORA: A Alibaba testou 18 agentes de codificação AI em 100 bases de código reais, ao longo de 233 dias cada. eles falharam espetacularmente.
acontece que passar testes uma vez é fácil. manter o código por 8 meses sem quebrar tudo é onde a AI colapsa completamente.
O SWE-CI é o primeiro benchmark que mede a manutenção de código a longo prazo em vez de correções de bugs pontuais. cada tarefa rastreia 71 commits consecutivos de evolução real.
75% dos modelos quebram código que anteriormente funcionava durante a manutenção. apenas Claude Opus 4.5 e 4.6 mantêm uma taxa de zero-regressão acima de 50%. todos os outros modelos acumulam dívida técnica que se compõe a cada iteração.
a parte brutal é:
- HumanEval e SWE-bench medem "funciona agora"
- SWE-CI mede "ainda funciona após 8 meses de mudanças"
agentes otimizados para testes instantâneos escrevem código frágil que passa nos testes hoje, mas se torna completamente insustentável amanhã.
eles construíram o EvoScore para pesar iterações posteriores mais pesadamente do que as iniciais. agentes que sacrificam a qualidade do código por vitórias rápidas são punidos quando as consequências se acumulam.
a narrativa da codificação AI acaba de se tornar mais honesta.
a maioria dos modelos pode escrever código. quase nenhum pode mantê-lo.

Top
Classificação
Favoritos
