Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Liệu LLM có thể phát hiện, trừu tượng hóa và tái sử dụng các kỹ năng công cụ cấp cao hơn qua các nhiệm vụ không?
Các tiêu chuẩn sử dụng công cụ hiện có kiểm tra việc giải quyết các nhiệm vụ với các công cụ cố định. Nhưng các quy trình làm việc thực tế chứa các cấu trúc lặp lại, nơi hiệu quả đến từ việc tái sử dụng các tổ hợp công cụ, chứ không phải các cuộc gọi riêng lẻ.
Chúng tôi giới thiệu SkillCraft: 126 nhiệm vụ trong 6 lĩnh vực được thiết kế để kiểm tra xem các tác nhân LLM có thể tiếp thu các kỹ năng tổ hợp hay không, chứ không chỉ gọi các công cụ nguyên tử.
Chúng tôi cũng đề xuất Skill Mode, một giao thức nhẹ với bốn nguyên tắc MCP cho phép các tác nhân tổ hợp, xác minh, lưu trữ và tái sử dụng các chuỗi công cụ trong thời gian kiểm tra.
Những phát hiện chính của chúng tôi qua việc đánh giá 8 mô hình SOTA:
⚡Skill Mode cho phép các tác nhân tự phát hiện và tái sử dụng kỹ năng, dẫn đến tỷ lệ thành công và hiệu quả cao hơn so với các tác nhân không có nó. Lợi ích lớn hơn cho các mô hình mạnh hơn.
🧠 Các mô hình mạnh hơn (ví dụ: Claude) phát hiện ra nhiều kỹ năng có thể tổng quát hơn, có thể chuyển giao qua các nhiệm vụ và thậm chí giữa các mô hình.
🔍 Tổ hợp sâu hơn ≠ tốt hơn — các kỹ năng nông, đã được kiểm tra tốt tổng quát nhất.
🔗 Tài liệu:
💻 Mã:
🏠 Trang:
(1/7)
Hàng đầu
Thứ hạng
Yêu thích
