een claude code vaardigheid gebouwd die RL-training doet op @PrimeIntellect van begin tot eind jij geeft het een datasetnaam. het regelt alles — beloningsfunctie, validatie, evaluatie, hub push, training indiening één prompt -> draaiende taak. "Bouw een omgeving voor cais/mmlu abstracte algebra, gebruik Qwen/Qwen3-30B-Instruct-2507, 1000 stappen, en dien de trainingstaak in." link in de opmerkingen