我认为这里发生了一些重要的事情,值得我们去弄清楚: 1)大多数模型对评估过拟合。也就是说,我们需要一些评估来告诉模型它们是否是好的胡说八道探测器,然后再去花一大笔钱返回无意义的内容。 2)需要意识到谄媚,通常来说,过于迎合并不总是最好的选择。 3)我认为使用混合的 llms 和人类来判断会很有价值。