我認為這裡有一些重要的事情值得弄清楚: 1) 大多數模型對評估過度擬合。也就是說,我們需要一些評估來告訴模型它們是否是好的胡說八道檢測器,否則我們就會浪費一大筆錢在回報無意義的東西上。 2) 需要意識到諂媚,通常來說,過於迎合並不總是最好的選擇。 3) 我認為使用混合的 llms 和人類來進行評判會是有價值的。