📍 Czy LLM mogą odkrywać, abstrahować i ponownie wykorzystywać umiejętności narzędziowe wyższego poziomu w różnych zadaniach? Istniejące benchmarki użycia narzędzi testują rozwiązywanie zadań z użyciem stałych narzędzi. Jednak rzeczywiste przepływy pracy zawierają powtarzające się struktury, w których efektywność pochodzi z wielokrotnego użycia kompozycji narzędzi, a nie z izolowanych wywołań. Wprowadzamy SkillCraft: 126 zadań w 6 dziedzinach zaprojektowanych w celu przetestowania, czy agenci LLM mogą nabywać umiejętności kompozycyjne, a nie tylko wywoływać atomowe narzędzia. Proponujemy również Skill Mode, lekki protokół z czterema prymitywami MCP, które pozwalają agentom komponować, weryfikować, buforować i ponownie wykorzystywać łańcuchy narzędzi w czasie testu. Nasze kluczowe ustalenia w ocenie 8 modeli SOTA: ⚡Skill Mode umożliwia agentom samodzielne odkrywanie i ponowne wykorzystywanie umiejętności, co prowadzi do wyższej skuteczności i efektywności niż agenci bez niego. Zyski są większe dla silniejszych modeli. 🧠 Silniejsze modele (np. Claude) odkrywają bardziej uniwersalne umiejętności, które przenoszą się między zadaniami, a nawet między modelami. 🔍 Głębsza kompozycja ≠ lepsza — płytkie, dobrze przetestowane umiejętności najlepiej się generalizują. 🔗 Artykuł: 💻 Kod: 🏠 Strona: (1/7)