Usando @PrimeIntellect para todo o nosso pipeline RL em glm 4.6v e nemotron Security Finetuns e, cara, minha convicção nunca foi tão forte, é tão direta prime-RL + verificadores + hub ambiental + treinamento hospedado (não uso porque tenho créditos 😋 modais, mas é ótimo) e você pode literalmente treinar seus modelos em qualquer coisa e começar em menos de 15 minutos, se não mais rápido.