我正在招聘专注于强化学习(RL)和分布式训练基础设施的研究工程师。 我们正在扩展1万亿参数模型的强化学习。 我的私信是开放的。