📍 Чи можуть LLM відкривати, абстрагувати та повторно використовувати навички високого рівня інструментів у різних завданнях? Існуючі інструменти тестують розв'язання завдань за допомогою фіксованих інструментів. Але справжні робочі процеси містять повторювані структури, де ефективність залежить від композицій інструментів, а не ізольованих викликів. Ми представляємо SkillCraft: 126 завдань у 6 доменах, спрямованих на перевірку, чи можуть агенти LLM набути композиційних навичок, а не просто викликати атомарні інструменти. Ми також пропонуємо Skill Mode — легкий протокол із чотирма примітивами MCP, який дозволяє агентам складати, перевіряти, кешувати та повторно використовувати ланцюжки інструментів під час тестування. Наші ключові висновки з оцінки 8 моделей SOTA: ⚡Режим навичок дозволяє агентам самостійно відкривати та повторно використовувати навички, що веде до вищого успіху та ефективності, ніж агенти без них. Вигода більша для сильніших моделей. 🧠 Сильніші моделі (наприклад, Клод) відкривають більш узагальнені навички, які переносяться між завданнями і навіть між моделями. 🔍 Глибша композиція ≠ краще — поверхневі, добре перевірені навички найкраще узагальнюють. 🔗 Стаття: 💻 Код: 🏠 Сторінка: (1/7)