In ons paper uit 2020 hebben we de implementatie-efficiëntie in RL-algoritmen gedefinieerd. De conclusie is dat de prestaties meer beperkt worden door de frequentie van implementaties dan door de monsters. Online leren is de sleutel, en dat is precies hoe "post-training" populair werd voor LLM's. Zondag is 💯 #schmidhubering