Ik ben op zoek naar onderzoeksingenieurs met een focus op RL en gedistribueerde trainingsinfrastructuur We schalen RL op een model van 1t parameters Mijn dm staan open