المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
الناس يساؤون بسرعة في تفسير هذا الرسم البياني على أنه ضجة
إليك شرح واضح لما يحدث:
تبني METR معيارا لمهام البرمجيات (تصحيح الأخطاء في الأنظمة المعقدة، تدريب نماذج التعلم الآلي، أو اكتشاف الثغرات الأمنية)
يقيسون المدة التي يستغرقها خبير بشري ماهر في كل مهمة، ثم يختبرون عملاء الذكاء الاصطناعي على نفس المهام.
"أفق الوقت" هو إحصائية ملخصة: طول المهمة التي ينجح عنده الذكاء الاصطناعي بنسبة 50٪ من الوقت. النموذج ذو الأفق الزمني ساعتين يكمل نصف المهام التي تستغرق خبير بشري ساعتين.
أفادت METR للتو أن كلود أوبوس 4.6 لديها أفق زمني 50٪ ~14.5 ساعة، وهو بالطبع سيكون مثيرا للإعجاب للغاية...
لكن METR يطلب منا أن نكون حذرين!
هناك مشكلة إحصائية. لم يتبق سوى ما يكفي من المهام الصعبة لتثبيت الطرف الأعلى من المنحنى، ونماذج الحدود الآن تنجح في كل شيء تقريبا ضمن مجموعة المهام.
لذا، فإن التغيرات العشوائية الصغيرة في النتائج تؤثر بشكل كبير على التقدير:
يمتد فترة الثقة 95٪ من 6 ساعات إلى 98 ساعة، وهو نطاق واضح غير موثوق لأي شخص لاستخلاص استنتاجات.
تعمل شركة METR نفسها على طرق جديدة للقياس بهذا المستوى، لذا فإن توقعات التقليل التدريجي :)
الأفضل
المُتصدِّرة
التطبيقات المفضلة
