Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El Aprendizaje por Refuerzo (RL) ha sido durante mucho tiempo el método dominante para el ajuste fino, impulsando muchos LLMs de última generación. Métodos como PPO y GRPO exploran en el espacio de acciones. Pero, ¿podemos en su lugar explorar directamente en el espacio de parámetros? SÍ, podemos. Proponemos un marco escalable para el ajuste fino de todos los parámetros utilizando Estrategias Evolutivas (ES).
Al omitir los gradientes y optimizar directamente en el espacio de parámetros, ES logra un ajuste fino más preciso, eficiente y estable.
Documento:
Código:
Parte superior
Clasificación
Favoritos
