El aprendizaje por refuerzo (RL) ha sido durante mucho tiempo el método dominante para el ajuste, impulsando muchos LLM de última generación. Métodos como PPO y GRPO exploran en el espacio de acción. Pero, ¿podemos explorar directamente en el espacio de parámetros? Sí, podemos. Proponemos un marco escalable para el ajuste fino de parámetros completos utilizando Evolution Strategies (ES). Al omitir gradientes y optimizar directamente en el espacio de parámetros, ES logra un ajuste fino más preciso, eficiente y estable. Papel: Código: