Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Могут ли LLM обнаруживать, абстрагировать и повторно использовать навыки работы с инструментами более высокого уровня в различных задачах?
Существующие эталоны использования инструментов тестируют решение задач с фиксированными инструментами. Но реальные рабочие процессы содержат повторяющиеся структуры, где эффективность достигается за счет повторного использования композиций инструментов, а не изолированных вызовов.
Мы представляем SkillCraft: 126 задач в 6 областях, разработанных для проверки того, могут ли агенты LLM приобретать композиционные навыки, а не просто вызывать атомарные инструменты.
Мы также предлагаем Skill Mode, легкий протокол с четырьмя примитивами MCP, которые позволяют агентам составлять, проверять, кэшировать и повторно использовать цепочки инструментов во время тестирования.
Наши ключевые выводы по оценке 8 моделей SOTA:
⚡ Skill Mode позволяет агентам самостоятельно открывать и повторно использовать навыки, что приводит к более высокой успешности и эффективности, чем у агентов без него. Приросты больше для более сильных моделей.
🧠 Более сильные модели (например, Claude) открывают более универсальные навыки, которые переносятся между задачами и даже между моделями.
🔍 Более глубокая композиция ≠ лучше — поверхностные, хорошо протестированные навыки обобщаются лучше.
🔗 Статья:
💻 Код:
🏠 Страница:
(1/7)
Топ
Рейтинг
Избранное
