Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wat als jouw agent zichzelf zou kunnen onderwijzen?
De nieuwe onderzoeks paper van sentient AI-onderzoeker @salahalzubi401 over EvoSkill genereert automatisch hoogwaardige vaardigheden voor Claude Code, OpenHands en meer.
Sluit een benchmark aan en het GEPA-achtige algoritme maakt jouw agent automatisch bekwaam in de bijbehorende taken.

11 mrt, 21:44
Een zelf-evoluerend framework om agentvaardigheden te ontdekken en te verfijnen.
De meeste agentvaardigheden die ik vandaag de dag zie, zijn handgemaakt of slecht ontworpen door een agent.
Multi-agent systemen voor het bouwen van vaardigheden zien er veelbelovend uit.
Dit paper introduceert EvoSkill, een zelf-evoluerend framework dat automatisch agentvaardigheden ontdekt en verfijnt door middel van iteratieve foutanalyse.
EvoSkill analyseert uitvoeringsfouten, stelt nieuwe vaardigheden voor of bewerkt bestaande, en materialiseert ze in gestructureerde, herbruikbare vaardigheidsmappen.
Drie samenwerkende agenten sturen het hele proces aan.
Een Executor die taken uitvoert, een Proposer die fouten diagnosticeert, en een Skill-Builder die concrete vaardigheidsmappen creëert.
Een Pareto-grens beheert de selectie, waarbij alleen vaardigheden worden behouden die de validatieprestaties verbeteren terwijl het onderliggende model bevroren blijft.
Op OfficeQA verbetert EvoSkill Claude Code met Opus 4.5 van 60,6% naar 67,9% exacte overeenstemming nauwkeurigheid. Op SealQA levert het een winst van 12,1%. Vaardigheden die zijn geëvolueerd op SealQA worden zero-shot overgedragen naar BrowseComp, wat de nauwkeurigheid met 5,3% verbetert zonder aanpassing.
Ik zal deze onderzoekslijn nauwlettend blijven volgen. Ik denk dat het echt belangrijk is.
Paper:
Leer effectieve AI-agenten te bouwen in onze academie:

@salahalzubi401 Repping @salahalzubi401
524
Boven
Positie
Favorieten
