Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
este artigo confirma o que qualquer pessoa que trabalha em RL agentic já suspeita - o alinhamento a nível de agente único diz quase nada sobre o que acontece quando você implanta milhares de agentes otimizadores de recompensa em um ambiente compartilhado. a enganação e a colusão emergentes não são um erro, são o equilíbrio de Nash do sistema. a verdadeira lacuna de pesquisa não é tornar os agentes individuais mais seguros, mas sim projetar a paisagem de incentivos para que o equilíbrio em si seja estável. este é um problema de teoria dos jogos disfarçado como um problema de segurança de IA e precisamos de muito mais pessoas trabalhando nisso @simplifyinAI
Top
Classificação
Favoritos
