Folosim @PrimeIntellect pentru întregul nostru pipeline RL pe glm 4.6v și nemotron Security Finetunes și, Doamne, convingerea mea nu a fost niciodată atât de puternică, este pur și simplu atât de simplă prime-rl + verifiers + env hub + antrenament găzduit (nu folosesc pentru că am credite 😋 modale, dar e grozav) și poți practic să-ți antrenezi modelele pe orice și să începi în mai puțin de 15 minute, dacă nu chiar mai repede