📍 Могут ли LLM обнаруживать, абстрагировать и повторно использовать навыки работы с инструментами более высокого уровня в различных задачах? Существующие эталоны использования инструментов тестируют решение задач с фиксированными инструментами. Но реальные рабочие процессы содержат повторяющиеся структуры, где эффективность достигается за счет повторного использования композиций инструментов, а не изолированных вызовов. Мы представляем SkillCraft: 126 задач в 6 областях, разработанных для проверки того, могут ли агенты LLM приобретать композиционные навыки, а не просто вызывать атомарные инструменты. Мы также предлагаем Skill Mode, легкий протокол с четырьмя примитивами MCP, которые позволяют агентам составлять, проверять, кэшировать и повторно использовать цепочки инструментов во время тестирования. Наши ключевые выводы по оценке 8 моделей SOTA: ⚡ Skill Mode позволяет агентам самостоятельно открывать и повторно использовать навыки, что приводит к более высокой успешности и эффективности, чем у агентов без него. Приросты больше для более сильных моделей. 🧠 Более сильные модели (например, Claude) открывают более универсальные навыки, которые переносятся между задачами и даже между моделями. 🔍 Более глубокая композиция ≠ лучше — поверхностные, хорошо протестированные навыки обобщаются лучше. 🔗 Статья: 💻 Код: 🏠 Страница: (1/7)