Et selvutviklende rammeverk for å oppdage og forbedre agentferdigheter. De fleste agentferdigheter jeg ser i dag er håndlagde eller dårlig designet av en agent. Multiagent-systemer for å bygge ferdigheter ser lovende ut. Denne artikkelen introduserer EvoSkill, et selvutviklende rammeverk som automatisk oppdager og forbedrer agentferdigheter gjennom iterativ feilanalyse. EvoSkill analyserer utførelsesfeil, foreslår nye ferdigheter eller endringer i eksisterende, og materialiserer dem i strukturerte, gjenbrukbare ferdighetsmapper. Tre samarbeidende agenter driver hele prosessen. En Utøver som kjører oppgaver, en Proposer som diagnostiserer feil, og en Ferdighetsbygger som lager konkrete ferdighetsmapper. En Pareto-grense styrer utvelgelsen, og beholder kun ferdigheter som forbedrer hold-out-valideringsytelsen, samtidig som den underliggende modellen holdes frosset. På OfficeQA forbedrer EvoSkill Claude Code med Opus 4.5 fra 60,6 % til 67,9 % nøyaktig treff-nøyaktighet. På SealQA gir det en økning på 12,1 %. Ferdigheter utviklet seg på SealQA transfer zero-shot til BrowseComp, og forbedret nøyaktigheten med 5,3 % uten endringer. Jeg vil fortsette å følge denne forskningsretningen nøye. Jeg synes det er veldig viktig. Artikkel: Lær å bygge effektive AI-agenter i vår akademi: