Usando @PrimeIntellect para toda nuestra cadena RL en glm 4.6v y finos de seguridad Nemotron, y madre mía, mi convicción nunca ha sido tan fuerte, es tan directo Prime-RL + verificadores + env hub + entrenamiento alojado (no lo uso porque tengo créditos 😋 modales, pero es genial) y literalmente puedes entrenar tus modelos en cualquier cosa y empezar en menos de 15 minutos o incluso más rápido