المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
خبر عاجل: اختبرت علي بابا 18 وكيل ترميز ذكاء اصطناعي على 100 قاعدة شيفرة حقيقية، تمتد كل منها على مدار 233 يوما. لقد فشلوا فشلا ذريعا.
اتضح أن اجتياز الاختبارات مرة واحدة أمر سهل. الحفاظ على الكود لمدة 8 أشهر دون أن يكسر كل شيء هو المكان الذي ينهار فيه الذكاء الاصطناعي تماما.
SWE-CI هو أول معيار يقيس صيانة الشيفرة طويلة الأمد بدلا من إصلاحات الأخطاء السريعة مرة واحدة. تتبع كل مهمة 71 التزاما متتاليا من التطور الحقيقي.
75٪ من النماذج تكسر كود يعمل سابقا أثناء الصيانة. فقط كلود أوبوس 4.5 و4.6 يبقيان فوق معدل انحدار صفري 50٪. كل نموذج آخر يتراكم عليه الدين التقني الذي يتراكم مع كل تكرار على حدة.
إليك الجزء القاسي:
- تقييم الإنسان ومشروع SWE-bench "هل يعمل الآن؟"
- SWE-CI يقيس "هل لا يزال يعمل بعد 8 أشهر من التغييرات"
الوكلاء المحسنون لاختبار اللقطات يكتبون كودا هشا يجتاز الاختبارات اليوم لكنه يصبح غير قابل للصيانة غدا.
قاموا ببناء EvoScore لوزن الإصدارات اللاحقة أثقل من النسخ المبكرة. الوكلاء الذين يضحون بجودة الكود من أجل انتصارات سريعة يعاقبون عندما تتراكم العواقب.
سرد برمجة الذكاء الاصطناعي أصبح أكثر صدقا.
معظم النماذج يمكنها كتابة الكود. نادرا ما يستطيع أحد الحفاظ عليه.

الأفضل
المُتصدِّرة
التطبيقات المفضلة
