Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El aprendizaje por refuerzo (RL) ha sido durante mucho tiempo el método dominante para el ajuste, impulsando muchos LLM de última generación. Métodos como PPO y GRPO exploran en el espacio de acción. Pero, ¿podemos explorar directamente en el espacio de parámetros? Sí, podemos. Proponemos un marco escalable para el ajuste fino de parámetros completos utilizando Evolution Strategies (ES).
Al omitir gradientes y optimizar directamente en el espacio de parámetros, ES logra un ajuste fino más preciso, eficiente y estable.
Papel:
Código:
Populares
Ranking
Favoritas
