V našem článku z roku 2020 jsme definovali efektivitu nasazení v RL algoritmu. Závěr je, že výkon je více omezen frekvencí nasazení než vzorky. Online učení je klíčové a právě tak se "post-training" stal populárním pro LLM. Neděle je 💯 #schmidhubering