Estoy contratando ingenieros de investigación con un enfoque en RL e infraestructura de entrenamiento distribuido Estamos escalando RL en un modelo de 1t parámetros Mis mensajes directos están abiertos