اختبار الذكاء الاصطناعي بقيمة مليون دولار بدلا من أن تسأل "هل هذا صحيح؟" هذا يسأل: "هل سيدفع أحد مقابلها؟" عبر مليون دولار من المهام الخبيرة الحقيقية، يكمل أفضل النماذج حوالي 40–48٪ فقط. أفضل واحدة: كلود أوبوس-4.6. الفجوة الكبيرة ليست المعرفة، بل التنفيذ. النماذج تفوت الخطوات والقيود والتفاصيل. الذكاء الاصطناعي قوي. لكن ليس موثوقا من البداية إلى النهاية بعد. فضولي لرؤية هذا العدد يزداد 📈
رابط للدراسة:
‏‎147‏