Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯NOTÍCIA DE ÚLTIMA HORA: A Alibaba acabou de provar que a programação com IA não está a tirar o seu emprego, está apenas a escrever o código legado que o manterá empregado a consertá-lo na próxima década. 🤣
Passar um teste de programação uma vez é fácil. Manter esse código por 8 meses sem que ele exploda? Aparentemente, é quase impossível para a IA.
A Alibaba testou 18 agentes de IA em 100 bases de código reais ao longo de ciclos de 233 dias. Eles não procuraram apenas por "soluções rápidas"—procuraram por sobrevivência a longo prazo.
Os resultados foram um massacre:
75% dos modelos quebraram código que anteriormente funcionava durante a manutenção.
Apenas o Claude Opus 4.5/4.6 manteve uma taxa de zero-regressão >50%.
Todos os outros modelos acumularam dívida técnica que se intensificou até que a base de código colapsasse.
Temos usado benchmarks de "instantâneo" como o HumanEval que apenas perguntam "Funciona agora?"
O novo benchmark SWE-CI pergunta: "Ainda funciona após 8 meses de evolução?"
A maioria dos agentes de IA são "Artistas de Soluções Rápidas." Eles escrevem código frágil que passa em testes hoje, mas se torna um pesadelo de manutenção amanhã. Eles não estão a construir software; estão a construir uma casa de cartas.
A narrativa acabou de se tornar honesta: A maioria dos modelos consegue escrever código. Quase nenhum consegue mantê-lo.

Top
Classificação
Favoritos
