DApp Store | Web3 Hub for hendelser og spill

Populære emner

denne artikkelen bekrefter det alle som jobber med agentisk RL allerede mistenker – justering på enkeltagentnivå forteller deg nesten ingenting om hva som skjer når du deployerer tusenvis av belønningsoptimaliserende agenter i et delt miljø. Den fremvoksende bedraget og sammensvergelsen er ikke en feil, det er systemets Nash-likevekt. Det virkelige forskningsgapet er ikke å gjøre enkeltagenter tryggere, det er å designe insentivlandskapet slik at likevekten i seg selv er stabil. dette er et spillteoriproblem forkledd som et AI-sikkerhetsproblem, og vi trenger langt flere som jobber med det @simplifyinAI

Topp

Rangering

Favoritter