En nuestro artículo de 2020, definimos la eficiencia de despliegue en el algoritmo RL. La conclusión es que la perfección está más limitada por la frecuencia de despliegues que las muestras. El aprendizaje online es la clave, y es exactamente como se popularizó el "post-formación" para los LLMs. El domingo es 💯 #schmidhubering