construí uma habilidade de código Claude que faz treinamento de RL de ponta a ponta @PrimeIntellect Você dá um nome de conjunto de dados. Ele cuida de tudo — função de recompensa, validação, avaliação, push de cubo, submissão de treinamento Um prompt - > trabalho em corrida. "Construa um ambiente para álgebra abstrata cais/mmlu, use Qwen/Qwen3-30B-Instruct-2507, 1000 passos e envie o trabalho de treinamento." link nos comentários