Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Vuoi ottenere un agente LLM per avere successo in un ambiente OOD?
Affrontiamo il caso più difficile con SPA (Self-Play Agent). Nessun dato extra, strumenti o modelli più potenti. Solo auto-gioco.
Prima internalizziamo un modello del mondo tramite l'auto-gioco, poi impariamo a vincere tramite RL.
Come un bambino che gioca con l'ambiente per semplicemente imparare "cosa succede se faccio questo?"
Di seguito, mostriamo le nostre scoperte su: Cosa c'è di sbagliato negli ambienti OOD? Quali sono i fattori chiave che permettono all'auto-gioco di avere successo?
(1/8)

Principali
Ranking
Preferiti
