دليل إضافي على أن نماذج اللغة الكبيرة ليست واعية ولا تعمم أي معلومات، وبالتالي لن تصبح ذكية بشكل عام، لكنها في الواقع (لا تزال مفيدة للغاية) مدربة على الاستجابة الإحصائية.
Lossfunk
Lossfunk‏19 مارس، 22:14
🚨 مفاجئ: نماذج Frontier LLMs تحقق 85-95٪ في معايير الترميز القياسية. أعطيناهم مسائل مماثلة بلغات لم يكن بإمكانهم حفظها. انخفضت إلى 0-11٪. نقدم لكم EsoLang-bench. تم قبوله في ورش العمل المنطقية وICBINB في ICLR 2026 🧵
خريجو علوم الحاسب يعطون تحديات برمجية بلغات لم يروا مثلها من قبل + مع قليل من الصياغة، ويطلب منهم القيام بأشياء مثل برمجة تسلسل فيبوناتشي لإثبات أنهم ليسوا مجرد تكرار دائم وهذا يستبعد الناس، لكن ليس بنسبة 90٪
‏‎37‏