No nosso artigo de 2020, definimos eficiência de implantação no algoritmo RL. A conclusão é que a performance é mais limitada pela frequência das implantações do que pelas amostras. O aprendizado online é a chave, e foi exatamente assim que o "pós-treinamento" foi popularizado para LLMs. Domingo é 💯 #schmidhubering