Dans notre article de 2020, nous avons défini l'efficacité de déploiement dans l'algorithme RL. La conclusion est que la performance est plus limitée par la fréquence des déploiements que par les échantillons. L'apprentissage en ligne est la clé, et c'est exactement ainsi que le "post-formation" a été popularisé pour les LLM. Dimanche est 💯 #schmidhubering