المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯عاجل: أثبتت علي بابا للتو أن برمجة الذكاء الاصطناعي لا تأخذ وظيفتك، بل هي فقط كتابة الكود القديم الذي سيبقيك موظفا لإصلاحه لعقد قادم. 🤣
اجتياز اختبار البرمجة مرة واحدة أمر سهل. هل تحافظ على هذا الكود لمدة 8 أشهر دون أن ينفجر؟ يبدو أن الذكاء الاصطناعي شبه مستحيل.
اختبرت علي بابا 18 عميلا اصطناعيا على 100 قاعدة شيفرة حقيقية خلال 233 دورة يوم. لم يبحثوا فقط عن "حلول سريعة"—بل بحثوا عن البقاء على المدى الطويل.
كانت النتائج حمام دم:
75٪ من النماذج كشفت كود كان يعمل سابقا أثناء الصيانة.
فقط كلود أوبوس 4.5/4.6 حافظ على معدل انحدار صفري بنسبة >50٪.
كل نموذج آخر تراكم عليه ديون تقنية تراكم حتى انهيار قاعدة الكود.
كنا نستخدم اختبارات "snapshot" مثل HumanEval التي تسأل فقط "هل تعمل الآن؟"
يسأل معيار SWE-CI الجديد: "هل لا يزال يعمل بعد 8 أشهر من التطور؟"
معظم وكلاء الذكاء الاصطناعي هم "فنانون للإصلاح السريع". يكتبون كودا هشا يجتاز الاختبارات اليوم لكنه يصبح كابوسا للصيانة غدا. هم لا يبنون البرمجيات؛ إنهم يبنون بيتا من ورق اللعب.
السرد أصبح صادقا للتو: معظم النماذج يمكنها كتابة الكود. نادرا ما يستطيع أحد الحفاظ عليه.

الأفضل
المُتصدِّرة
التطبيقات المفضلة
