هذا فعلا رائع. جعلني ذلك أفكر بعمق أكبر في التعلم المعزز الشخصي: ما الهدف الحقيقي من تخصيص نموذج في عالم يمكن أن تصبح فيه النماذج الأساسية قديمة بهذه السرعة؟ الواقع في الذكاء الاصطناعي هو أن النماذج الجديدة تشحن كل بضعة أسابيع، وكل واحدة أفضل من التي قبلها. وتيرة العمل تتسارع فقط، كما نرى في مركز Hugging Face. لسنا بعيدين عن ظهور نماذج أساسية أفضل يوميا. هناك فجوة بحثية في التعلم المعزز هنا لا يعمل عليها أحد تقريبا. معظم أبحاث تخصيص نماذج اللغة الكبيرة تفترض وجود نموذج قاعدة ثابت، لكن القليل جدا يسأل ماذا يحدث لهذا التخصيص عند تبديل النموذج الأساسي. فكر في الانتقال من لاما 3 إلى لاما 4. كل التفضيلات المعدلة، وإشارات المكافآت، وLoRAs أصبحت مرتبطة فجأة بنموذج الأمس. كمستخدم أو فريق، لا تريد إعادة تعليم كل نموذج جديد حسب تفضيلاتك. لكنك أيضا لا تريد أن تبقى عالقا في جهاز أقدم فقط لأنه يعرفك. يمكننا أن نسمي هذا "قابلية نقل نموذج التعلم الواقعي": كيف يمكن تقطير تتبع التعلم المنطقي، أو إشارة المكافأة، أو تمثيل التفضيل المدرب على النموذج N، وإعادة تطبيقه تلقائيا على النموذج N+1 دون تدخل كبير من المستخدم؟ حللنا ذلك في SFT حيث يمكن تخزين مجموعة بيانات التدريب وإعادة استخدامها لتدريب نموذج مستقبلي. كما تعاملنا مع نسخة من ذلك في مراحل RLHF بطريقة ما، لكن لا يزال الأمر غير واضح بشكل عام عند استخدام التعلم المعزز المنشور في العالم الحقيقي. هناك بعض المواضيع ذات الصلة (RLTR لمسارات الاستدلال القابلة للنقل، P-RLHF وPREMIUM لتمثيلات المستخدمين المستقلة عن النماذج، HCP لبروتوكولات التفضيل المحمولة) لكن الحلقة الكاملة تبدو غير مدروسة بشكل كاف بالنسبة لي. بعض هذه الأسئلة تتعلق بعدم السياسة، والبعض الآخر يتعلق بالقدرات مقابل التخصيص: أي من التخصيصات أو الإصلاحات القديمة يعالجها النموذج الجديد بالفعل من الخارج، وأيها مخصصة للمستخدم أو الفريق ليتم حلها افتراضيا؟ يمكنك أن تخزن مهارة في الوقت الحالي لكن التعلم الواقعي يسمح لها بالتوسع إلى ما هو أبعد من مستوى الإرشاد الكتابي. بالتأكيد فاتني بعض الأعمال، لذا يرجى نشر أي عمل جيد رأيته حول هذا الموضوع في التعليقات.