DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

El Aprendizaje por Refuerzo (RL) ha sido durante mucho tiempo el método dominante para el ajuste fino, impulsando muchos LLMs de última generación. Métodos como PPO y GRPO exploran en el espacio de acciones. Pero, ¿podemos en su lugar explorar directamente en el espacio de parámetros? SÍ, podemos. Proponemos un marco escalable para el ajuste fino de todos los parámetros utilizando Estrategias Evolutivas (ES). Al omitir los gradientes y optimizar directamente en el espacio de parámetros, ES logra un ajuste fino más preciso, eficiente y estable. Documento: Código:

Parte superior

Clasificación

Favoritos