O Reinforcement Learning (RL) tem sido o método dominante para ajuste fino, alimentando muitos LLMs de última geração. Métodos como PPO e GRPO exploram no espaço de ação. Mas podemos, em vez disso, explorar diretamente no espaço de parâmetros? Sim, podemos. Propomos uma estrutura escalável para ajuste fino de parâmetros completos usando Estratégias de Evolução (ES). Ao pular gradientes e otimizar diretamente no espaço de parâmetros, o ES obtém um ajuste fino mais preciso, eficiente e estável. Papel: Código: