Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Quieres conseguir un agente LLM para tener éxito en un entorno OOD?
Abordamos el caso más difícil con SPA (Agente de Auto-Juego). Sin datos adicionales, herramientas o modelos más fuertes. Puro auto-juego.
Primero internalizamos un modelo del mundo a través del Auto-Juego, luego aprendemos a ganar mediante RL.
Como un niño jugando con el entorno para simplemente aprender sobre "¿qué pasaría si hago esto?"
A continuación, mostramos nuestros hallazgos sobre: ¿Qué está mal con los entornos OOD? ¿Cuáles son los factores clave que permiten que el auto-juego tenga éxito?
(1/8)

Parte superior
Clasificación
Favoritos
