跳转至主要内容
资产
行情
热门
洞察市场趋势,交易热门代币
扫链
浏览 Meme 新币,抢占市场先机
策略
追踪
创建自选列表,实时追踪动态
跟单
探索链上地址,一键轻松跟单
信号
紧跟市场信号,把握买入时机
地址雷达
筛选目标代币,发现优质地址
兑换
Onchain OS
了解 Onchain OS
开发者中心
文档
API Key 管理
X Layer
了解 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
区块链浏览器
更多
邀请计划
DeFi
市场
安全中心
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
语言
货币
预警
DEX 功能
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+7.37%
USELESS
+8.42%
IKUN
-6.19%
gib
+3.44%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+4.09%
ALON
+6.31%
LAUNCHCOIN
-5.35%
GOONC
+3.78%
KLED
+21.95%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-1.17%
Boopa
+5.72%
PORK
0.00%
主页
Shiqi Chen
博士生@CityUHongKong。NLPer。访问博士@OxCSML @NorthwesternU和@HKUST。前 @SeaAIL。
查看原文
Shiqi Chen
3月9日 23:03
📍 LLM能否在任务之间发现、抽象和重用更高层次的工具技能? 现有的工具使用基准测试使用固定工具解决任务。但真实的工作流程包含重复的结构,其中效率来自可重用的工具组合,而不是孤立的调用。 我们引入了SkillCraft:126个任务跨越6个领域,旨在测试LLM代理是否能够获得组合技能,而不仅仅是调用原子工具。 我们还提出了Skill Mode,这是一种轻量级协议,具有四个MCP原语,允许代理在测试时组合、验证、缓存和重用工具链。 我们在评估8个SOTA模型时的关键发现: ⚡Skill Mode使代理能够自我发现和重用技能,导致比没有它的代理更高的成功率和效率。对于更强的模型,收益更大。 🧠 更强的模型(例如Claude)发现更具可迁移性的技能,这些技能可以跨任务甚至跨模型转移。 🔍 更深的组合≠更好——浅层、经过良好测试的技能最具通用性。 🔗 论文: 💻 代码: 🏠 页面: (1/7)
475
Shiqi Chen
2025年10月25日
想要让 LLM 代理在 OOD 环境中成功吗? 我们用 SPA(自我游戏代理)来解决最困难的案例。没有额外的数据、工具或更强的模型。纯粹的自我游戏。 我们首先通过自我游戏内化一个世界模型,然后通过强化学习学习如何获胜。 就像孩子在环境中玩耍,简单地学习“如果我这样做会怎样?” 下面,我们展示了我们的发现:OOD 环境有什么问题?哪些关键因素使自我游戏能够成功? (1/8)
552
热门
排行
收藏