În lucrarea noastră din 2020, am definit eficiența implementării în algoritmul RL. Concluzia este că performanța este mai degrabă limitată de frecvența implementărilor decât de eșantioane. Învățarea online este cheia și exact așa a fost popularizat "post-training" pentru LLM-uri. Duminica este 💯 #schmidhubering