В нашей статье 2020 года мы определили эффективность развертывания в алгоритме RL. Заключение таково, что производительность больше зависит от частоты развертываний, чем от образцов. Онлайн-обучение является ключевым, и именно так "пост-тренировка" была популяризирована для LLM. Воскресенье — 💯 #schmidhubering