متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

طريقة تفسير الأمر هي أنه بعد ما بعد التدريب تكون أوزانك متساوية المسافة تقريبا عن كل المهام التي رأتها أثناء التدريب المسبق (النموذج شاهد جميع المهام لذا جذبها نحوها). كل ما تفعله هذه الطريقة هو تعديل الأوزان ورؤية أي الاضطرابات تقرب الشبكة من الأوزان الخاصة بالمهمة. إنه مثل لورا رخيص جدا وهذا يرتبط أيضا بالملاحظة أن ما بعد التدريب لا يضيف معرفة، بل ينحت توزيع ما قبل التدريب

الأوزان المضطربة تشبه إلى حد كبير الدوران العشوائي في درجات حرارة عالية. أعتقد أن هذا يمكن أن يكون تكراريا (مثل GRPO) أوزان الاضطراب ذات نصف القطر الكبير -> اختيار أفضل أداء -> تستمر في تقليل نصف القطر هذا *يجب* أن يزيد من دقة المهام @yule_gan جربت هذا؟

‏‎26‏

الأفضل

المُتصدِّرة

التطبيقات المفضلة