📍 هل يمكن لنماذج اللغة الكبيرة اكتشاف وتجريد وإعادة استخدام مهارات الأدوات المتقدمة عبر المهام؟ اختبارات معايير استخدام الأدوات الحالية لاختبار مهام حل الأدوات بأدوات ثابتة. لكن سير العمل الحقيقي يحتوي على هياكل متكررة حيث تأتي الكفاءة من تركيبات أدوات قابلة لإعادة الاستخدام، وليس من المكالمات المعزولة. نقدم SkillCraft: 126 مهمة عبر 6 مجالات مصممة لاختبار ما إذا كان بإمكان وكلاء LLM اكتساب مهارات تركيبية، وليس مجرد استدعاء أدوات ذرية. نقترح أيضا وضع المهارات، وهو بروتوكول خفيف الوزن يحتوي على أربع عناصر MCP تتيح للوكلاء تركيب والتحقق من التخزين المؤقت وإعادة استخدام سلاسل الأدوات أثناء وقت الاختبار. نتائجنا الرئيسية عبر 8 نماذج SOTA التي تم تقييمها: ⚡يمكن وضع المهارة الوكلاء من اكتشاف المهارات ذاتيا وإعادة استخدامها، مما يؤدي إلى نجاح وكفاءة أعلى مقارنة بالوكلاء الذين لا يستخدمونه. المكاسب أكبر بالنسبة للنماذج الأقوى. 🧠 النماذج الأقوى (مثل كلود) تكتشف مهارات أكثر قابلية للتعميم، تنتقل عبر المهام وحتى عبر النماذج. 🔍 التكوين الأعمق ≠ أفضل — المهارات السطحية والمجربة جيدا هي الأفضل في التعميم. 🔗 الورقة: 💻 الرمز: 🏠 الصفحة: (1/7)