المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
طريقة تفسير الأمر هي أنه بعد ما بعد التدريب تكون أوزانك متساوية المسافة تقريبا عن كل المهام التي رأتها أثناء التدريب المسبق (النموذج شاهد جميع المهام لذا جذبها نحوها). كل ما تفعله هذه الطريقة هو تعديل الأوزان ورؤية أي الاضطرابات تقرب الشبكة من الأوزان الخاصة بالمهمة. إنه مثل لورا رخيص جدا
وهذا يرتبط أيضا بالملاحظة أن ما بعد التدريب لا يضيف معرفة، بل ينحت توزيع ما قبل التدريب

13 مارس، 23:41
إضافة ضوضاء غاوسية إلى نماذج اللغة الكبيرة (خطوة واحدة—بدون تكرارات، بدون معدل تعلم، بدون تدرجات تدرجية) وتركيبها يمكن أن يحقق أداء مماثلا أو حتى أفضل من GRPO/PPO القياسية في مهام الاستدلال الرياضي، والترميز، والكتابة، والكيمياء. نسمي هذه الخوارزمية RandOpt.
للتحقق من أن هذا لا يقتصر على نماذج محددة، قمنا باختباره على أجهزة Qwen وLlama وOLMo3 وVLMs.
ما وراء هذا؟ نجد أنه في مجتمع البحث الغاوسي حول نماذج اللغة الكبيرة المدربة مسبقا، يتوزع خبراء المهام المتنوعون بشكل كثيف — وهو نظام نسميه "الشجيرات العصبية".
الورقة:
الرمز:
الموقع الإلكتروني:

الأوزان المضطربة تشبه إلى حد كبير الدوران العشوائي في درجات حرارة عالية. أعتقد أن هذا يمكن أن يكون تكراريا (مثل GRPO)
أوزان الاضطراب ذات نصف القطر الكبير -> اختيار أفضل أداء -> تستمر في تقليل نصف القطر
هذا *يجب* أن يزيد من دقة المهام
@yule_gan جربت هذا؟
26
الأفضل
المُتصدِّرة
التطبيقات المفضلة
