Il Reinforcement Learning (RL) è da tempo il metodo dominante per il fine-tuning, alimentando molti LLM all'avanguardia. Metodi come PPO e GRPO esplorano nello spazio delle azioni. Ma possiamo invece esplorare direttamente nello spazio dei parametri? SÌ, possiamo. Proponiamo un framework scalabile per il fine-tuning completo dei parametri utilizzando le Strategie Evolutive (ES). Saltando i gradienti e ottimizzando direttamente nello spazio dei parametri, le ES raggiungono un fine-tuning più accurato, efficiente e stabile. Carta: Codice: