Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kerangka kerja yang berkembang sendiri untuk menemukan dan menyempurnakan keterampilan agen.
Sebagian besar keterampilan agen yang saya lihat hari ini dibuat dengan tangan atau dirancang dengan buruk oleh seorang agen.
Sistem multi-agen untuk membangun keterampilan terlihat menjanjikan.
Makalah ini memperkenalkan EvoSkill, kerangka kerja yang berkembang sendiri yang secara otomatis menemukan dan menyempurnakan keterampilan agen melalui analisis kegagalan berulang.
EvoSkill menganalisis kegagalan eksekusi, mengusulkan keterampilan baru atau pengeditan pada yang sudah ada, dan mewujudkannya menjadi folder keterampilan yang terstruktur dan dapat digunakan kembali.
Tiga agen yang berkolaborasi mendorong seluruh proses.
Eksekutor yang menjalankan tugas, Pengusul yang mendiagnosis kegagalan, dan Pembuat Keterampilan yang membuat folder keterampilan konkret.
Perbatasan Pareto mengatur pemilihan, hanya mempertahankan keterampilan yang meningkatkan kinerja validasi yang ditahan sambil menjaga model yang mendasarinya tetap membeku.
Di OfficeQA, EvoSkill meningkatkan Claude Code dengan Opus 4.5 dari 60.6% menjadi 67.9% akurasi kecocokan persis. Pada SealQA, ia menghasilkan kenaikan 12,1%. Keterampilan berevolusi pada SealQA mentransfer zero-shot ke BrowseComp, meningkatkan akurasi sebesar 5,3% tanpa modifikasi.
Saya akan terus melacak jalur penelitian ini dengan cermat. Saya pikir itu sangat penting.
Kertas:
Pelajari cara membangun agen AI yang efektif di akademi kami:

Teratas
Peringkat
Favorit
